Apple рассказала о системе обучения Apple Intelligence на устройствах с использованием пользовательских данных

В прошлом месяце Apple отложила выпуск своих более персонализированных и мощных функций Siri. В то время как компания стремится исправить ситуацию с будущими обновлениями Apple Intelligence, издание Bloomberg освещает изменения, которые Apple вносит в методы обучения своих моделей искусственного интеллекта.

В отчете упоминается сообщение в блоге с сайта Apple о исследованиях в области машинного обучения, в котором объясняется, как Apple обычно использует синтетические данные для обучения своих моделей ИИ. Однако эта стратегия имеет ограничения, в том числе тот факт, что синтетическим данным трудно «понимать тенденции» в таких функциях, как инструменты для написания или подведения итогов, которые работают с более длинными предложениями или целыми электронными письмами.

Чтобы устранить это ограничение, Apple подчеркивает новую технологию, которую она скоро начнет использовать для сравнения синтетических данных с небольшой выборкой недавних пользовательских электронных писем, но без ущерба для конфиденциальности пользователей:

Чтобы улучшить наши модели, нам необходимо создать набор из множества электронных писем, охватывающих наиболее распространенные темы в сообщениях. Для курирования репрезентативного набора синтетических писем мы начинаем с создания большого набора синтетических сообщений на различные темы. Например, мы можем создать синтетическое сообщение: «Хотите поиграть в теннис завтра в 11:30?»

Это делается без какого-либо знания индивидуальных электронных писем пользователей. Затем мы получаем представление, называемое эмбеддингом, каждого синтетического сообщения, которое отражает некоторые ключевые параметры сообщения, такие как язык, тема и длина. Эти эмбеддинги затем отправляются на небольшое количество пользовательских устройств, которые согласились на аналитику устройств.

Участвующие устройства затем выбирают небольшую выборку недавних пользовательских электронных писем и вычисляют их эмбеддинги. Каждое устройство затем решает, какой из синтетических эмбеддингов наиболее близок к этим выборкам. Используя дифференциальную приватность, Apple может затем узнать наиболее часто выбираемые синтетические эмбеддинги на всех устройствах, не узнавая, какой синтетический эмбеддинг был выбран на любом конкретном устройстве.

Эти наиболее часто выбираемые синтетические эмбеддинги затем могут быть использованы для генерации обучающих или тестовых данных, либо мы можем выполнить дополнительные шаги курирования для дальнейшего уточнения набора данных. Например, если сообщение об игре в теннис является одним из наиболее часто выбираемых эмбеддингов, подобное сообщение с заменой «теннис» на «футбол» или другой вид спорта может быть сгенерировано и добавлено в набор для следующего раунда курирования (см. Рисунок 1). Этот процесс позволяет нам улучшать темы и язык наших синтетических электронных писем, что помогает нам обучать наши модели создавать лучшие текстовые выводы в таких функциях, как резюме электронной почты, при одновременной защите конфиденциальности.

Apple объясняет, что эти методы позволяют ей «понимать общие тенденции, не узнавая информацию об отдельных пользователях. Bloomberg сообщает, что Apple развернет эту новую систему в будущей бета-версии iOS 18.5 и macOS 15.5.

Вы можете прочитать полный пост в блоге Apple для получения дополнительной информации.

Подписывайтесь на ChanceThreadsBlueskyInstagram и Mastodon