Последняя ИИ-модель Apple слушает, что делает речь «не такой», и вот почему это важно

Marcus Mendes | Пятница, 6 июня, 2025, 14:07.

Маркус Мендес | 6 июня 2025 г. — 5:22 PT

В рамках своей фантастической работы над моделями речи и голоса Apple опубликовала новое исследование, которое использует очень человекоцентричный подход к сложной проблеме машинного обучения: распознавание не только того, что было сказано, но и как это было сказано. А последствия для доступности монументальны.

В статье исследователи представляют структуру для анализа речи, используя то, что они называют Измерениями Качества Голоса (VQDs), которые являются интерпретируемыми характеристиками, такими как разборчивость, хриплость, придыхание, монотонность высоты тона и так далее.

Это те же атрибуты, на которые обращают внимание логопеды при оценке голосов, затронутых неврологическими состояниями или заболеваниями. И теперь Apple работает над моделями, которые могут их обнаружить.

Обучение ИИ слышать и слушать

Большинство современных речевых моделей обучаются в основном на здоровых, типичных голосах. Это означает, что они склонны ломаться или хуже работать, когда пользователи звучат иначе. Это, очевидно, огромный пробел в доступности.

Исследователи Apple обучили легкие зонды (простые диагностические модели, которые работают поверх существующих речевых систем) на большом общедоступном наборе аннотированных атипичных речей, включая голоса людей с болезнью Паркинсона, БАС и церебральным параличом.

Но вот в чем загвоздка: вместо того, чтобы использовать эти модели для транскрипции сказанного, они измеряли, как звучит голос, используя семь основных измерений.

Разборчивость: насколько легко понять речь.
Неточные согласные: насколько четко артикулируются согласные звуки (например, расплывчатые или невнятные согласные).
Хриплый голос: грубый, напряженный или скрипучий тембр голоса.
Естественность: насколько типично или плавно звучит речь для слушателя.
Монотонность громкости: отсутствие вариаций в громкости (т. е. речь на одной ровной громкости).
Монотонность высоты тона: отсутствие вариаций в высоте тона, приводящее к плоскому или роботизированному тону.
Придыхание: слышимое воздушное или шепчущее качество голоса, часто из-за неполного смыкания голосовых связок.

Короче говоря, они научили машины «слушать как клиницисты», а не просто регистрировать сказанное.

Немного более сложный способ выразить это: Apple использовала пять моделей (CLAP, HuBERT, HuBERT ASR, Raw-Net3, SpICE) для извлечения аудиохарактеристик, а затем обучила легкие зонды для прогнозирования измерений качества голоса на основе этих характеристик.

В итоге эти зонды показали высокую производительность по большинству измерений, хотя производительность незначительно варьировалась в зависимости от характеристики и задачи.

Одним из выдающихся аспектов этого исследования является то, что результаты модели объяснимы. Это все еще редкость в ИИ. Вместо того, чтобы предлагать таинственный «показатель уверенности» или суждение из черного ящика, эта система может указывать на конкретные вокальные характеристики, которые приводят к определенной классификации. Это, в свою очередь, может привести к значительным улучшениям в клинической оценке и диагностике.

За пределами доступности

Интересно, что Apple не остановилась на клинической речи. Команда также протестировала свои модели на эмоциональной речи из набора данных под названием RAVDESS, и, несмотря на то, что модели VQD никогда не обучались на эмоциональном аудио, они также дали интуитивно понятные прогнозы.

Например, сердитые голоса имели более низкую «монотонность громкости», спокойные голоса оценивались как менее хриплые, а грустные голоса воспринимались как более монотонные.

Это может открыть путь для более отзывчивого Siri, который мог бы модулировать свой тон и речь в зависимости от того, как он интерпретирует настроение или состояние ума пользователя, а не только его фактические слова.

Полное исследование доступно на arXiv.