Apple изучает собственную технологию преобразования текста в речь, возможно, чтобы отказаться от Nuance

Ведомство по патентам и товарным знакам США (USPTO) во вторник предоставило Apple новый патент, связанный с продвинутыми функциями преобразования текста в речь, которые могут быть или не быть полностью реализованы в будущих мобильных устройствах и компьютерах, или привнесены в существующую линейку продуктов компании посредством обновления программного обеспечения. Apple впервые подала заявку на этот патент в феврале 2006 года, почти за год до анонса оригинального iPhone. Это предполагает, что компания стремилась улучшить качество генерируемой машиной речи на своих устройствах задолго до представления в этом месяце Siri, чьи интерфейсы преобразования текста в речь и речи в текст изложены в патентных заявках Apple от 2009 и 2011 годов. Несмотря на то, что Mac OS X имеет возможности преобразования текста в речь уже много лет, качество генерируемого машиной голоса и произношения заметно не улучшалось до выхода Lion этим летом. Высококачественное преобразование текста в речь в Lion заставило наблюдателей предполагать, что Apple лицензировала технологию Nuance. В электронной переписке с Джеком Пурчером из Patently Apple он сообщил мне: «со временем мы выясним (или нет), почему Apple посчитала, что ей нужно обратиться к Nuance, чтобы выполнить эту работу, но это указывает на то, что у них просто недостаточно собственных ресурсов для жизнеспособного решения для iPhone».

Представление в этом месяце iPhone 4S и его персонального помощника Siri — с преобразованием текста в речь как одним из его компонентов — является еще одним признаком возможного лицензирования технологии Nuance для широкомасштабного развертывания во всей линейке Apple. Новый патент называется «Многокомпонентный подход к синтезу речи из текста» и описывает процесс сопоставления единиц входной строки с библиотекой аудиосегментов, включающих метаданные, такие как артикуляционные связи между фразами и словами. Отмечая, что речь из обычных приложений для преобразования текста в речь обычно звучит искусственно или механически по сравнению с человеческой речью, Apple утверждает, что ее изобретение обеспечивает более естественное звучание речи. Кроме того, оно поддерживает клиент-серверную архитектуру, идеально подходящую для iCloud.

Как соучредитель Siri Норман Винарски эксклюзивно рассказал 9to5Mac, модульная архитектура Siri позволяет Apple заменять компонент преобразования текста в речь от Nuance любой другой технологией синтеза речи, включая, в конечном итоге, свою собственную. Учитывая нежелание Apple использовать технологии, которыми она не владеет, справедливо предположить, что они, по крайней мере, исследуют потенциальную замену Nuance для будущих выпусков iOS и Mac OS X. Это не было бы беспрецедентным. Помните, Apple исключила службу сбора данных о местоположении Skyhook в апреле 2010 года, заменив ее собственным общедоступным решением, которое позже вызвало скандал с отслеживанием местоположения iPhone. Что еще может вызвать интерес в патенте Apple?

Для начала, это в основном очень техническое чтение. Однако Apple во многих местах хвалит качество получаемой речи, которая учитывает просодические характеристики, включая мелодию и ритм речи. Что еще лучше, решение Apple может быть обучено человеческим голосом, что приведет к еще более убедительной речи. Это также означает, что система, теоретически, может обучаться и адаптироваться к голосу пользователя таким образом, как Siri, управляемая ИИ, улучшается со временем по мере ее использования. Компания утверждает, что ее система преобразования текста в речь может работать на «как на общих, так и на специализированных микропроцессорах, а также на одном или нескольких процессорах любого типа цифрового компьютера», что указывает на высокую сложность и оптимизацию. В выданном патенте указаны инженеры Apple Маттиас Нирачер, Деванг К. Наaik, Кевин Б. Айткен, Джером Р. Беллегарда и Ким Е.А. Сильверман. Чтобы получить подробное описание патента, введите его идентификационный номер 8036894 в поисковую систему USPTO.