
Как я уже упоминал недавно, хотя Whisper находится на слуху и до сих пор является довольно хорошей моделью транскрипции, OpenAI отошла от нее. Тем не менее, тот факт, что новый API транскрипции Apple работает быстрее, чем Whisper, — это отличная новость. Но насколько он точен? Мы проверили.
Полное раскрытие информации: идея этого поста пришла от разработчика Пракаша Пакса, который провел свои собственные тесты. Как он объясняет:
Я записал 15 аудиообразцов на английском языке, случайным образом от 15 секунд до 2 минут. И протестировал 3 инструмента преобразования речи в текст.
- Новые API транскрипции Apple
- openAI Whisper Large v3 Turbo
- Eleven Lab’s scribe v1
Я не буду включать его результаты здесь, иначе у вас не будет причин переходить к его интересному посту и ознакомиться с ними самостоятельно.
Но он добавил предостережение относительно своей методологии. «Я не носитель английского языка. Поэтому результаты могут незначительно отличаться для других», и его тесты вызвали у меня интерес к тому, как Apple и OpenAI могут соперничать с Parakeet от NVIDIA, который на данный момент является самой быстрой моделью транскрипции.
Как я это сделал
Поскольку я тоже не носитель английского языка, я решил использовать недавний эпизод 9to5Mac Daily, который длился 7:31.
Я использовал MacWhisper для запуска OpenAI’s Whisper Large V3 Turbo и NVIDIA’s Parakeet v2. Для речевого API Apple я использовал превосходный проект Yap Финна Вурхиса. Я запускал их на своем MacBook Pro M2 Pro с 16 ГБ ОЗУ.
Для фактического анализа частоты ошибок по символам (CER) и частоты ошибок по словам (WER), поскольку существует множество способов расчета этих показателей (например, нормализовать пробелы? игнорировать регистр? игнорировать пунктуацию?), я обратился к этим двум пространствам Hugging Face: Metric: cer и Metric: wer.
Оба описывают свою методологию на своих соответствующих страницах, поэтому я не буду вдаваться в подробности здесь. Важно то, что все модели оценивались с использованием одного и того же подхода, что помогает обеспечить согласованность базовой линии и надежность общих тенденций, даже если точные цифры будут отличаться при немного разных методах.
Как они справились
Модель | Время транскрипции | Процент ошибок по символам | Процент ошибок по словам |
Parakeet v2 | 2 секунды | 5,8% | 12,3% |
Whisper Large V3 Turbo | 40 секунд | 0,2% | 1,5% |
Apple | 9 секунд | 1,9% | 10,3% |
Идя дальше, я решил попросить ChatGPT, Claude и Gemini также рассчитать CER и WER. Вот результаты, наряду с описанием методологии, предоставленным самими моделями:
ChatGPT (o4-mini-high)
Исходный текст («базовая линия») и каждая гипотеза (Apple, Parakeet, Whisper) были сначала нормализованы путем:
- Преобразования всего текста в нижний регистр
- Удаления всей пунктуации (точек, запятых, кавычек и т. д.)
- Замены любых последовательностей пробелов одним пробелом
- Это гарантирует, что мы сравниваем только сами слова (или символы), а не форматирование или капитализацию.
Модель | Время транскрипции | Процент ошибок по символам | Процент ошибок по словам |
Parakeet v2 | 2 секунды | 6,0% | 12,3% |
Whisper Large V3 Turbo | 40 секунд | 0,4% | 1,4% |
Apple | 9 секунд | 2,1% | 10,2% |
Claude (Sonnet 4)
Протокол нормализации текста: Перед вычислением показателей ошибок все тексты проходят стандартизированную нормализацию для обеспечения справедливого сравнения:
- Нормализация регистра: Преобразование в нижний регистр
- Стандартизация пунктуации:
- Нормализация типографских кавычек (‘ ‘) в прямые апострофы (‘)
- Нормализация типографских кавычек (“ “) в прямые кавычки (“)
- Нормализация длинных тире (–) в дефисы (-)
- Нормализация пробелов: Замена нескольких пробелов одним пробелом
- Обрезка: Удаление начальных и конечных пробелов
Примечание: Я пытался использовать Claude 4 Opus, но получил сообщения об ошибках из-за пределов пропускной способности серверов Anthropic.
Модель | Время транскрипции | Процент ошибок по символам | Процент ошибок по словам |
Parakeet v2 | 2 секунды | 8,4% | 11,0% |
Whisper Large V3 Turbo | 40 секунд | 0,1% | 1,0% |
Apple | 9 секунд | 3,5% | 8,2% |
Gemini (2.5 Pro)
Все тексты (как базовые, так и гипотетические файлы) были нормализованы для обеспечения справедливого сравнения. Процесс нормализации включал:
- Преобразование всего текста в нижний регистр.
- Удаление всей пунктуации (например, ,, ., ?, ‘, “).
- Замена дефисов пробелами (например, «end-to-end» становится «end to end»).
Модель | Время транскрипции | Процент ошибок по символам | Процент ошибок по словам |
Parakeet v2 | 2 секунды | 7,6% | 12,3% |
Whisper Large V3 Turbo | 40 секунд | 0,3% | 0,4% |
Apple | 9 секунд | 3,4% | 5,3% |
Так что же лучше?
Ответ, который не понравится никому: зависит.
Whisper, безусловно, самый точный из трех, но если вы работаете над проектом, требующим сроков, и транскрибируете что-то довольно длинное, время обработки может стать проблемой.
Parakeet, с другой стороны, определенно ваш лучший выбор, когда скорость важнее точности. Допустим, у вас есть запись двухчасовой лекции, и вам просто нужен быстрый способ найти конкретный сегмент. В этом случае отказ от некоторой точности в пользу скорости может быть правильным решением.
Модель Apple занимает среднее положение, но не в плохом смысле. Она ближе к Parakeet по скорости, но при этом уже превосходит его по точности. Это довольно неплохо для первой попытки.
Конечно, она все еще далека от Whisper, особенно для серьезной работы по транскрипции, которая требует минимальных или нулевых ручных корректировок. Но тот факт, что она работает локально, без зависимости от сторонних API или внешних установок, имеет большое значение, особенно по мере роста числа разработчиков и продолжения совершенствования Apple.
Скидки на аксессуары на Amazon
- Портативный аккумулятор Anker на 25 000 мАч, 100 Вт, USB-C: $119.99
- Складное универсальное беспроводное зарядное устройство Anker, 15 Вт, Qi2: скидка 20% по цене $71.99
- AirPods Pro 2: скидка 20% по цене $199.00
- AirTag, комплект из 4 штук: скидка 24% по цене $74.99