Последняя запись Apple в журнале машинного обучения описывает, как она обнаруживает популярные эмодзи и многое другое

Apple опубликовала свою последнюю белую книгу через свой журнал машинного обучения. Сегодняшняя запись — «Обучение с конфиденциальностью в масштабе» — посвящена конкретным алгоритмам, которые Apple использует с дифференциальной конфиденциальностью для улучшения функций продукта, с некоторыми конкретными примерами использования, такими как обнаружение популярных эмодзи.

Запущенный прошлым летом, Apple использует свой журнал машинного обучения для публикации информации об эволюции Siri, о том, как работает «Привет, Siri», о обнаружении лиц и многом другом.

Сегодняшняя статья содержит подробности о балансе доступа к данным пользователей для улучшения продуктов и использовании локальной дифференциальной конфиденциальности для защиты информации пользователей.

В рамках системы дифференциальной конфиденциальности существуют два режима: централизованный и локальный. В нашей системе мы решили не собирать необработанные данные на сервере, что требуется для централизованной дифференциальной конфиденциальности; следовательно, мы применяем локальную дифференциальную конфиденциальность, которая является превосходной формой конфиденциальности [3]. Локальная дифференциальная конфиденциальность имеет то преимущество, что данные рандомизируются перед отправкой с устройства, поэтому сервер никогда не видит и не получает необработанные данные.

Apple также отмечает, что ее система работает только с согласия пользователя и является прозрачной, при этом никакие данные не записываются и не отправляются до получения одобрения пользователя.

Документ подробно описывает архитектуру системы, которую использует Apple, а также разработанные ею алгоритмы, включая «Private Count Mean Sketch», «Private Hadamard Count Mean Sketch» и «Private Sequence Fragment Puzzle».

Что касается случаев использования, Apple отмечает, что ей удается улучшать предиктивные предложения QuickType для эмодзи на основе местоположения.

Учитывая популярность эмодзи среди нашей базы пользователей, мы хотим определить, какие конкретные эмодзи наиболее часто используются нашими клиентами, и относительное распределение этих символов. Для этого мы развертываем наши алгоритмы для понимания распределения эмодзи, используемых в локалях клавиатуры. Для этого случая использования мы устанавливаем параметры для CMS равными mm = 1024, kk = 65 536, и ϵϵ = 4 при размере словаря 2600 эмодзи.

Данные показывают множество различий между локалями клавиатуры. На Рисунке 6 мы видим снимки из двух локалей: английской и французской. Используя эти данные, мы можем улучшить наши предиктивные предложения QuickType для эмодзи в различных локалях.

Другие случаи использования включают «Определение высокого энергопотребления и использования памяти в Safari» и «Обнаружение новых слов».

Прочтите полную запись в журнале здесь.


Посетите 9to5Mac на YouTube для получения дополнительных новостей об Apple: