Глава команды разработчиков речи Apple объясняет, как Siri изучает новый язык

Benjamin Mayo | Четверг, 9 марта, 2017, 04:23.

Benjamin Mayo | 9 марта 2017 г. — 3:22 PT

В области персональных помощников Apple — неоспоримый лидер в плане локализации; Siri поддерживает двадцать четыре языка в 36 диалектах стран. В отличие от этого, Google Assistant понимает только пять языков, а Alexa (популяризированный Amazon Echo) — всего два, английский и немецкий.

В iOS 10.3 будет добавлен еще один язык — шанхайский диалект, что еще больше укрепит ее международное преимущество. В интервью Reuters глава команды разработчиков речи Apple объясняет, как Siri обучают новому языку…

Алекс Асеро в настоящее время возглавляет команду разработчиков речи в Apple; он присоединился к компании в 2013 году. Ранее распознавание речи Siri поддерживалось Nuance, но пару лет назад Apple заменила его собственной разработанной платформой, которая в значительной степени полагается на машинное обучение для улучшения понимания слов.

Что касается освоения нового языка, Асеро объясняет, что процесс начинается с привлечения реальных людей, говорящих на этом языке, которые читают различные абзацы и списки слов, охватывая разные диалекты и акценты.

Человеческая речь записывается и транскрибируется другими людьми. Это формирует эталонное представление слов и того, как они звучат вслух, продиктованное реальными людьми для обеспечения точности. Эти необработанные обучающие данные затем подаются в алгоритмическую модель машинного обучения.

Компьютерная языковая модель пытается предсказывать транскрипцию произвольных цепочек слов. Алгоритм может автоматически улучшаться со временем по мере обучения на большем объеме данных. Apple немного корректирует данные внутри компании, а затем переходит к следующему этапу.

Вместо того чтобы сразу переходить к Siri, Apple выпускает новый язык как функцию диктовки iOS и macOS, доступную на клавиатуре iPhone при нажатии клавиши микрофона рядом с пробелом. Это позволяет Apple получать больше образцов речи (отправляемых анонимно) от гораздо более широкой базы людей.

Эти реальные аудиоклипы естественным образом включают фоновый шум и несовершенную речь, такую как кашель, паузы и нечеткое произношение. Apple берет эти образцы и транскрибирует их людьми, а затем использует это вновь подтвержденное сопоставление аудио и текста в качестве дополнительных входных данных для языковой модели. Согласно отчету, этот вторичный процесс сокращает частоту ошибок диктовки вдвое.

Apple повторяет эту процедуру до тех пор, пока не сочтет, что система достаточно точна для выпуска в качестве основной функции Siri. Отдельно актеры озвучивания записывают речевые последовательности, чтобы Siri могла синтезировать аудио и выполнять преобразование текста в речь с ответами.

Затем язык выпускается с обновлением программного обеспечения, точно так же, как шанхайский диалект станет частью iOS 10.3 и macOS 10.12.4. Siri оснащена заранее заданными ответами на «наиболее частые запросы»; это позволяет Siri отвечать на такие вопросы, как «Расскажи анекдот». Такие вопросы, как «найди ближайшие рестораны», конечно, обрабатываются динамически.

В конечном итоге искусственный интеллект сможет отвечать на общие разговорные вопросы без необходимости использования сценариев из базы данных ответов, написанных людьми. В настоящее время это практически невозможно; Siri и все ее конкуренты полагаются на людей для написания шуток и коротких ответов.

Асеро говорит, что Apple изучает, что спрашивают реальные пользователи после того, как Siri была развернута на новом языке, и обновляет базу данных ответов людей каждые две недели.