Apple объясняет, как «Привет, Siri» работает с помощью глубокой нейронной сети и машинного обучения

В этом месяце Apple опубликовала в своем журнале Machine Learning Journal интересную статью, подробно объясняющую, как работает голосовой детектор «Привет, Siri». Хотя многие из этих записей слишком глубоки для среднего читателя (то есть для меня), октябрьская статья от команды Siri содержит несколько интересных (и понятных!) деталей о том, что происходит за кулисами, когда вы используете «Привет, Siri» на своем iPhone и Apple Watch.

Apple объясняет, что микрофон iPhone и Apple Watch «преобразует ваш голос в поток мгновенных выборок формы волны с частотой 16000 в секунду», прежде чем детектор на устройстве определит, намеревались ли вы вызвать Siri голосом:

Этап спектрального анализа преобразует поток выборок формы волны в последовательность кадров, каждый из которых описывает спектр звука примерно за 0,01 секунды. Около двадцати таких кадров одновременно (0,2 секунды аудио) подаются на акустическую модель — глубокую нейронную сеть (DNN), которая преобразует каждый из этих акустических паттернов в распределение вероятностей по набору классов звуков речи: тех, что используются во фразе «Привет, Siri», плюс тишина и другая речь, всего около 20 классов звуков.

Apple также использует переменную пороговую величину для определения, пытаетесь ли вы вызвать Siri:

Мы внесли некоторую гибкость, чтобы облегчить активацию Siri в сложных условиях, не увеличивая при этом значительно количество ложных срабатываний. Существует основной, или нормальный порог, и более низкий порог, который обычно не активирует Siri. Если оценка превышает нижний порог, но не превышает верхний, то возможно, что мы пропустили истинное событие «Привет, Siri». Когда оценка находится в этом диапазоне, система входит в более чувствительное состояние на несколько секунд, так что если пользователь повторяет фразу, даже не прилагая больше усилий, Siri срабатывает. Этот механизм «второго шанса» значительно улучшает удобство использования системы, не увеличивая при этом слишком сильно частоту ложных срабатываний, поскольку оно находится в этом состоянии повышенной чувствительности только в течение короткого времени.

Как мы знаем, «Привет, Siri» полагается на сопроцессор в iPhone для прослушивания ключевого слова без необходимости физического взаимодействия или расхода заряда батареи, а Apple Watch обрабатывает «Привет, Siri» иначе, поскольку требует включенного дисплея. Apple объясняет, что «Привет, Siri» использует только около 5% вычислительных ресурсов при использовании этого метода.

Детектор «Привет, Siri» работает только тогда, когда сопроцессор движения запястья обнаруживает жест поднятия запястья, который включает экран. В этот момент WatchOS приходится делать многое — включаться, готовить экран и т. д. — поэтому система выделяет «Привет, Siri» лишь небольшую долю (~5%) весьма ограниченного бюджета вычислений. Начать захват аудио вовремя, чтобы поймать начало ключевой фразы, — непростая задача, поэтому мы учитываем возможную усеченность при инициализации детектора.

Наконец, почему Apple выбрала фразу «Привет, Siri» в качестве триггера?

Еще до появления функции «Привет, Siri» небольшая часть пользователей начинала запрос с фразы «Привет, Siri», предварительно нажав кнопку. Мы использовали такие произношения «Привет, Siri» для начального набора данных для модели детектора американского английского. Мы также включили общие примеры речи, которые использовались для обучения основной системы распознавания речи. В обоих случаях мы использовали автоматическую транскрипцию фраз для обучения. Члены команды Siri проверили подмножество транскрипций на точность.

Мы создали фонетическую спецификацию фразы «Привет, Siri» для каждого языка. В американском английском у нас было два варианта с разными первыми гласными в слове «Siri» — одно как в «serious», а другое как в «Syria».

Полная статья — это отличное чтение, особенно если вы интересуетесь распознаванием речи или используете «Привет, Siri» на своем iPhone или Apple Watch.


Подпишитесь на 9to5Mac на YouTube для получения дополнительных новостей об Apple: