Apple обучает Siri распознавать и адаптироваться к пользователям, заикающимся, используя исследования и каталог подкастов

Apple изучает способы улучшения своего голосового помощника Siri для пользователей с нетипичными речевыми моделями, как подтвердила компания изданию Wall Street Journal. Согласно отчету, Apple использует свою библиотеку подкастов для образцов речи, которые могут помочь обучить Siri адаптироваться к пользователям, говорящим с заиканием.

Вот новость из отчета Wall Street Journal:

Компания сейчас исследует, как автоматически определять, говорит ли человек с заиканием, и создала банк из 28 000 аудиоклипов из подкастов с участием заикающихся, чтобы помочь в этом, согласно исследовательской работе, которая будет опубликована сотрудниками Apple на этой неделе и которую видел Wall Street Journal.

На данный момент Apple полагается на свою функцию «Удерживать для разговора» как на метод взаимодействия с Siri, чтобы голосовой помощник не прерывал пользователей с более медленной речью, чем та, на которую он настроен, но физическое взаимодействие с устройством не всегда удобно.

Siri можно активировать голосом на iPhone, iPad и Mac, а также особенно на HomePod и HomePod mini, используя голосовую команду «Привет, Siri», за которой следует запрос. Однако для пользователей, которые заикаются, текущая версия Siri часто интерпретирует паузы в речи как конец голосовой команды. В свою очередь, это мешает голосовому помощнику полностью раскрыть свой потенциал для группы клиентов.

Друг сайта Стив Акино указал на исследовательскую работу Apple, упомянутую в отчете WSJ.

Вот аннотация исследования Apple:

Возможность автоматического определения событий заикания в речи может помочь логопедам отслеживать беглость речи человека с течением времени или помочь улучшить системы распознавания речи для людей с нетипичными речевыми моделями. Несмотря на растущий интерес к этой области, существующие общедоступные наборы данных слишком малы для создания обобщаемых систем обнаружения нарушений беглости речи и не имеют достаточных аннотаций. В этой работе мы представляем Stuttering Events in Podcasts (SEP-28k), набор данных, содержащий более 28 000 клипов, помеченных пятью типами событий, включая блоки, продления, повторения звуков, повторения слов и вставки. Аудио взято из общедоступных подкастов, в основном состоящих из людей, которые заикаются, берущих интервью у других людей, которые заикаются. Мы тестируем набор акустических моделей на SEP-28k и общедоступном наборе данных FluencyBank и подчеркиваем, как простое увеличение объема обучающих данных улучшает относительную производительность обнаружения на 28% и 24% F1 соответственно. Аннотации из более чем 32 000 клипов из обоих наборов данных будут общедоступны.

В исследовательской работе признается, что текущий подход к настройке Siri для нарушений беглости речи является одним из возможных, и существует возможность улучшить эти усилия с помощью языковых моделей и других методов.

Наконец, Apple приходит к выводу, что, хотя ее текущие исследования сосредоточены на пользователях, которые заикаются, будущие исследования должны охватывать другие категории, такие как дизартрия, которые имеют различные характеристики.

Заявление Джейн Фрейзер, президента Stuttering Foundation, о усилиях технологических компаний по включению заикания в речевые модели, распознаваемые голосовыми помощниками:

«Мы очень рады узнать о недавних усилиях технологических компаний по более инклюзивному отношению к сообществу заикающихся в их технологиях голосовых помощников. Для людей, которые заикаются, быть услышанным и понятым может быть пожизненной борьбой. Эволюция технологий, учитывающая то, что говорят люди, а не то, как они это говорят, открывает двери для десятков миллионов людей, которые борются с заиканием».