
Если вам когда-либо понадобится транскрибировать аудио или видео в текст, большинство современных приложений используют модель Whisper от OpenAI. Вы, вероятно, используете эту модель, если пользуетесь такими приложениями, как MacWhisper для транскрибирования встреч или лекций, или для создания субтитров для видео на YouTube.
Но iOS 26 и другие бета-версии Apple для разработчиков включают собственные фреймворки транскрипции компании — и тест показывает, что они соответствуют точности Whisper, работая более чем в два раза быстрее…
Если вы когда-либо пользовались встроенными функциями диктовки на любом из своих устройств Apple, за это отвечает собственный фреймворк Apple для распознавания речи. В новых бета-версиях есть бета-версии SpeechAnalyzer и SpeechTranscriber, которые разработчики могут использовать в своих собственных приложениях.
Используйте фреймворк Speech для распознавания произнесенных слов в записанном или живом аудио. Поддержка диктовки на клавиатуре использует распознавание речи для преобразования аудиоконтента в текст. Этот фреймворк предоставляет аналогичное поведение, за исключением того, что вы можете использовать его без наличия клавиатуры.
Например, вы можете использовать распознавание речи для распознавания голосовых команд или для обработки диктовки текста в других частях вашего приложения. Фреймворк предоставляет класс SpeechAnalyzer и ряд модулей, которые могут быть добавлены к анализатору для обеспечения конкретных типов анализа и транскрипции. Многим вариантам использования достаточно модуля SpeechTranscriber, который обеспечивает транскрипцию речи в текст.
Джон Вурхиз из MacStories попросил своего сына создать инструмент командной строки для тестирования этой новой возможности и был невероятно впечатлен результатами.
Я спросил Финна, что потребуется, чтобы создать инструмент командной строки для транскрипции видео и аудиофайлов с помощью SpeechAnalyzer и SpeechTranscriber. Он решил, что это займет всего около 10 минут, и он не сильно ошибся. В конце концов, мне потребовалось больше времени, чтобы установить macOS Tahoe после WWDC, чем Финну потребовалось, чтобы создать Yap — простую утилиту командной строки, которая принимает аудио и видео файлы в качестве входных данных и выводит транскрипты в формате SRT и TXT.
Он использовал 34-минутное видео для тестирования против MacWhisper и VidCap — двух самых популярных приложений для транскрипции. Он обнаружил, что модули Apple соответствуют их точности, но работают более чем в два раза быстрее самого эффективного существующего приложения — MacWhisper, использующего модель Large V3 Turbo:
Приложение | Время транскрипции |
---|---|
Yap (с использованием фреймворка Apple) | 0:45 |
MacWhisper (Large V3 Turbo) | 1:41 |
VidCap | 1:55 |
MacWhisper (Large V2) | 3:55 |
Он утверждает, что, хотя это может показаться относительно незначительным улучшением для разовых задач, разница быстро накапливается при выполнении пакетной транскрипции или при необходимости очень регулярной транскрипции файлов, например, студентами лекционных записей.
Если вы используете бета-версию macOS Tahoe для разработчиков, вы можете установить Yap с GitHub, чтобы протестировать ее самостоятельно.
Рекомендуемые аксессуары
- Ультракомпактное зарядное устройство Anker 511 Nano Pro для iPhone
- Чехол Spigen MagFit для iPhone 16e — добавляет поддержку MagSafe
- Зарядное устройство Apple MagSafe мощностью 25 Вт для моделей iPhone 16
- Зарядное устройство Apple мощностью 30 Вт для вышеуказанного
- Плетеный кабель Anker USB-C — USB-C мощностью 240 Вт
Изображение: скриншот 9to5Mac файла субтитров YouTube