
OpenAI только что выпустила три новые модели голосового общения в реальном времени, которые, по ее словам, «откроют новый класс голосовых приложений для разработчиков». Каждая новая модель голосового интеллекта имеет свою уникальную специализацию для различных целей.
Разработчики смогут создавать новые приложения на базе 3 новых голосовых моделей OpenAI
Существует три новые голосовые модели OpenAI для различных целей, включая рассуждение, перевод и транскрипцию.
Вот что компания анонсировала сегодня:
- GPT‑Realtime‑2 — наша первая голосовая модель с возможностями рассуждения класса GPT‑5, способная обрабатывать более сложные запросы и естественно поддерживать диалог.
- GPT‑Realtime‑Translate — новая модель живого перевода, которая переводит речь с более чем 70 языков ввода на 13 языков вывода, поспевая за говорящим.
- GPT‑Realtime‑Whisper — новая потоковая модель преобразования речи в текст, которая транскрибирует речь в реальном времени по мере того, как говорит человек.
OpenAI более подробно объясняет, что нового в голосовой модели GPT‑Realtime‑2 класса GPT-5 с возможностями рассуждения:
GPT‑Realtime‑2 создана для голосового общения в реальном времени, где модель поддерживает диалог, обрабатывает запросы, вызывает инструменты, обрабатывает исправления или прерывания и отвечает соответствующим образом, подстраиваясь под ситуацию.
Тем временем новая модель голосового перевода поддерживает «70 языков ввода и 13 языков вывода», сообщает компания.
Наконец, есть модель транскрипции в реальном времени:
GPT‑Realtime‑Whisper — это новая потоковая модель транскрипции, созданная для преобразования речи в текст с низкой задержкой. Она транскрибирует аудио по мере того, как люди говорят, поэтому приложения реального времени могут ощущаться быстрее, отзывчивее и естественнее — от появляющихся в реальном времени субтитров до заметок о встречах, которые поспевают за ходом разговора.
Все три новые голосовые модели включены в API Realtime от OpenAI, сообщает компания, с такой ценой:
- GPT‑Realtime‑2 стоит 32 долл. США за 1 млн аудиовходных токенов (0,40 долл. США за кэшированные входные токены) и 64 долл. США за 1 млн аудиовыходных токенов.
- GPT‑Realtime‑Translate стоит 0,034 долл. США в минуту.
- GPT‑Realtime‑Whisper стоит 0,017 долл. США в минуту.
Вы можете протестировать новые голосовые модели в реальном времени в Playground. Если у вас установлен Codex, нажмите «Отправить» в приведенном ниже запросе, чтобы добавить GPT‑Realtime‑2 в ваше существующее приложение или создать с его помощью новое.
Подробнее о последних голосовых моделях OpenAI и о том, как компании уже используют новую технологию, можно узнать здесь.