Новые базовые модели Apple: ИИ на устройстве, облачный ИИ и всё, что между ними

В ходе конференции WWDC26 компания Apple анонсировала третье поколение своих базовых моделей (Apple Foundation Models, AFM), состоящее из пяти моделей. Некоторые из них работают локально на устройствах, некоторые — в облаке, а одна функционирует на серверах Google на базе чипов Nvidia. Разбираемся, как это устроено.

Немного предыстории

Когда Apple впервые анонсировала свои базовые модели в 2024 году, линейка включала языковую модель для работы на устройстве с примерно 3 миллиардами параметров и «более крупную серверную языковую модель, доступную через Private Cloud Compute и работающую на серверах Apple silicon», как заявляла тогда компания.

Private Cloud Compute был амбициозным проектом: его целью было предоставление возможностей облачного ИИ при сохранении тех же гарантий конфиденциальности, которые пользователи ожидают от локальной обработки данных.

По этой причине было важно оставить всё под собственным контролем. Private Cloud Compute работал в дата-центрах Apple на серверах, оснащенных процессорами Apple silicon. Даже при таком подходе гарантии конфиденциальности могли быть независимо проверены сторонними исследователями безопасности.

Однако, поскольку Apple столкнулась с трудностями при реализации своих амбиций в области ИИ, компания заключила партнерство с Google, чтобы использовать Gemini в качестве основы для своих новых разработок в сфере ИИ, о результатах чего она объявила ранее на этой неделе во время презентации WWDC26.

Новые базовые модели Apple

В третье поколение AFM входят пять моделей: AFM 3 Core и AFM 3 Code Advanced (модели для работы на устройстве), а также AFM Cloud, ADM 3 Cloud (Image) и AFM 3 Cloud Pro (серверные модели). Буква «D» в названии ADM 3 Cloud (Image) означает «диффузию» — технологию, которую мы ранее уже рассматривали.

За исключением AFM 3 Cloud Pro, все остальные модели созданы для работы на устройствах с процессорами Apple silicon. AFM 3 Cloud Pro, в свою очередь, работает на графических процессорах NVIDIA, размещенных в Google Cloud.

Это стало возможным после того, как Apple впервые расширила свою архитектуру Private Cloud Compute до использования сторонней инфраструктуры, «сохранив при этом мощные средства защиты безопасности и конфиденциальности Apple», как утверждает компания.

Что касается самих моделей, то вот их краткий обзор, представленный Apple:

  • AFM 3 Core — следующее поколение нашей плотной модели с 3 миллиардами параметров, обеспечивающее качественный скачок вперед.
  • AFM 3 Core Advanced — наша самая мощная модель для работы на устройстве. Она является нативно мультимодальной, что позволяет реализовать такие полезные функции, как выразительные голоса и более точная диктовка. Эта модель с 20 миллиардами параметров, построенная на передовых разработках Apple, использует разреженную архитектуру, активируя от 1 до 4 миллиардов параметров за раз в зависимости от запроса. AFM 3 Core Advanced разблокируется и оптимизирована для наших самых мощных систем на базе Apple silicon.
  • AFM 3 Cloud — наша «рабочая лошадка» на стороне сервера, оптимизированная для скорости, эффективности и производительности.
  • ADM 3 Cloud (Image) — для генерации и редактирования изображений, что открывает доступ к передовым инструментам обработки фото, совершенно новому приложению Image Playground и многому другому.
  • AFM 3 Cloud Pro — наша самая производительная серверная модель, которая обеспечивает работу самых требовательных сценариев, таких как использование интеллектуальных агентов и выполнение сложных логических задач.

Ключевыми новинками здесь являются AFM 3 Core Advanced и AFM 3 Cloud Pro.

Начиная с AFM 3 Core Advanced: модель содержит 20 миллиардов параметров и предназначена для работы непосредственно на устройстве — это впечатляющее достижение. Большинство моделей для работы на устройствах, ориентированных на широкого потребителя, обычно ограничены несколькими миллиардами параметров.

Чтобы AFM 3 Core Advanced работала эффективно, Apple применила разреженную архитектуру, которая активирует до 4 миллиардов параметров за один запрос, а не плотную архитектуру, которой потребовалось бы поддерживать все 20 миллиардов параметров активными для каждой задачи.

Хотя концептуально это похоже на подход Mixture of Experts («смесь экспертов»), эта селективная активация опирается на технику, изобретенную Apple и подробно описанную в интересном исследовании «Instruction-Following Pruning for Large Language Models», опубликованном год назад.

Что касается AFM 3 Cloud Pro, то это модель, которая работает на внешней инфраструктуре. Вы можете ознакомиться с некоторыми техническими деталями этого расширения в этой статье, опубликованной в блоге Apple Security ранее на этой неделе, но вот самое важное:

Опираясь на эту основу, Apple и Google совместно создали возможности, выходящие далеко за рамки традиционного развертывания конфиденциальных вычислений:

  • Мы не полагаемся исключительно на технологии конфиденциальных вычислений для защиты от атак, использующих привилегированный доступ вне защищенной виртуальной машины, включая атаки по сторонним каналам. Мы рассматриваем каждый компонент — от прошивки через стек хост-системы и гостевой ОС до программного кода приложения — как часть нашей доверенной вычислительной базы, подлежащей нашей проверяемой прозрачности и гарантиям отсутствия привилегированного доступа.
  • Чтобы снизить риск атак на цепочку поставок, мы ведем криптографически проверяемый реестр «только для добавления» (append-only) всего оборудования Google Cloud, входящего в состав парка серверов PCC. Для компонентов, которые могли бы быть использованы для извлечения пользовательских данных в случае компрометации, наша программная аттестация опирается как минимум на два независимых корня доверия от разных поставщиков.
  • Даже при использовании конфиденциальных вычислений мы считаем, что стек вывода должен быть изначально спроектирован с учетом конфиденциальности и безопасности. PCC в Google Cloud использует многие из тех же архитектурных шаблонов безопасности, что и PCC на Apple silicon, для реализации этих многоуровневых защит: первичный разбор сетевых данных для каждого запроса происходит в выделенном процессе внутри собственного пространства имен, общая среда выполнения обновляется с коротким временем жизни (TTL), а аттестованные ключи хранятся в отдельной, выделенной конфиденциальной виртуальной машине, изолированной от внешних входных данных.

В своем блоге, посвященном исследованиям в области машинного обучения, Apple заявляет, что все пять моделей «имели общую начальную основу перед специализацией для своих архитектур и вариантов использования, приобретая мультимодальные возможности, такие как понимание аудио и изображений, работа с длинным контекстом и высококачественная генерация визуального контента».

Компания добавляет, что для обучения этих моделей использовалась «смесь данных, включающая общедоступную информацию, данные, лицензированные или приобретенные у третьих сторон, данные из открытых источников, данные, полученные в ходе специальных исследований, а также синтетические данные». Apple также подчеркивает, что процесс обучения не включал пользовательские данные или взаимодействия, и что веб-издатели могут отказаться от использования их контента для обучения базовых моделей.

Результаты

Apple заявляет, что провела обширную оценку своих базовых моделей третьего поколения с привлечением экспертов, которые оценивали ответы по таким категориям, как следование инструкциям, достоверность, качество изложения и понимание изображений.

Модели сравнивались со своими предшественниками (где это применимо), и некоторые результаты вы можете увидеть ниже:

Доля предпочтительных ответов при сравнительном тестировании возможностей работы с общим текстом, сравнивающем AFM 3 Core и AFM 3 Cloud с предыдущим поколением моделей. Результаты представлены по четырем различным группам локалей для демонстрации стабильной производительности для разных языков. «English» представляет наш глобальный набор тестов на английском языке, в то время как «PFIGSCJK», «DNNSTV» и «AFIHHMPRTU» представляют остальные поддерживаемые глобальные локали.

Доля предпочтительных ответов при сравнительном тестировании возможностей понимания изображений на английском языке. Результаты сравнивают AFM 3 Core и AFM 3 Cloud с их предшественниками 2025 года.

Доля предпочтительных ответов при сравнительном тестировании задач диктовки. Результаты сравнивают AFM 3 Core Advanced с существующей промышленной системой диктовки Apple по семи измерениям качества. AFM 3 Core Advanced демонстрирует положительный результат по общему качеству, причем преимущество последовательно сохраняется по всем отдельным параметрам форматирования и понимания текста.

Чтобы подробнее узнать о базовых моделях Apple третьего поколения, перейдите по этой ссылке.

Стоит посмотреть на Amazon