Apple подробно рассказывает о персонализированном распознавании голоса «Привет, Siri» в новой статье Machine Learning Journal

Zac Hall | Понедельник, 16 апреля, 2018, 05:55.

Zac Hall | 16 апр 2018 — 8:23 PT

Команда Apple Siri опубликовала новую статью в Machine Learning Journal, подробно описывающую процесс работы голосовой активации «Привет, Siri» с использованием только нашего голоса. Осенью прошлого года Apple уже публиковала материалы о процессе работы голосовой активации Siri в целом, а первая статья Machine Learning Journal этого года посвящена проблеме распознавания речи конкретного пользователя.

Как упоминалось в предыдущей статье, Apple заявляет, что фраза «Привет, Siri» была выбрана частично потому, что многие пользователи уже использовали ее естественным образом при активации Siri с помощью аппаратной кнопки.

Фраза «Привет, Siri» изначально была выбрана как можно более естественной; на самом деле, она была настолько естественной, что еще до появления этой функции пользователи вызывали Siri с помощью кнопки «домой» и невольно предваряли свои запросы словами «Привет, Siri».

Новая статья описывает три проблемы при активации Siri голосом: основной пользователь произносит фразу, похожую на «Привет, Siri», другой пользователь произносит «Привет, Siri» или другой пользователь произносит фразу, похожую на «Привет, Siri».

Ограничивая активацию голосом основного пользователя, конструкция в идеале предотвращает две из этих трех проблем. В статье затрагивается то, как Apple подходит к этой проблеме:

Мы измеряем производительность системы распознавания речи как комбинацию коэффициента принятия ложной положительной срабатывания (IA) и коэффициента ложного отказа (FR). Однако важно различать (и приравнивать) эти значения от тех, которые используются для измерения качества системы срабатывания по ключевой фразе.

Как и в каждой статье Machine Learning Journal, далее подробно рассматривается реализация Apple, прежде чем перейти к нерешенным проблемам с функцией: использование «Привет, Siri» в шумной обстановке или в большой комнате.

Одно из наших текущих исследовательских направлений сосредоточено на понимании и количественной оценке деградации в этих сложных условиях, когда окружение входящей тестовой фразы сильно отличается от существующих фраз в профиле речи пользователя.

Голосовая активация Siri началась с iPhone 6, как отмечается в статье, хотя первоначальная версия работала только тогда, когда устройство заряжалось. Сегодня «Привет, Siri» работает на новых iPhone, iPad и Apple Watch без зарядки, и это основной элемент управления для HomePod. В будущем та же функция «Привет, Siri» может стать способом взаимодействия с AirPods.

Полная статья — основанная на исследовании, представленном для Международной конференции по акустике, речи и обработке сигналов — предлагает редкий детальный взгляд на объем работы, стоящей за функцией, которая, как надеемся, кажется пользователю естественной.