Команда Apple, отвечающая за Siri, под руководством Крейга Федериги провела сегодня днем техническую пресс-конференцию после WWDC, чтобы обсудить iOS 27 и новый ИИ для Siri.
В ходе беседы Федериги поделился подробностями сотрудничества Apple с Google.
К Федериги присоединились Амар Субраманья (вице-президент по ИИ), Майк Роквелл (руководитель отдела Siri) и Себастьен Марино-Мес (вице-президент по программному обеспечению).
Относительно сотрудничества с Google Федериги пояснил:
Конечно, у нас нет приложения Gemini как такового. На самом деле, никакой клиентский код от него не является частью того, как мы работаем в iOS. Для этих моделей мы не используем ни одну из моделей, которые Google развертывает для своих клиентов, равно как мы не используем инфраструктуру и средства, с помощью которых они доставляют модели своим клиентам. Более того, когда речь заходит о базе знаний, мы, разумеется, не используем Google Search или что-либо подобное в качестве фундамента нашей системы. Надеюсь, это понятно. Мы не используем Google Assistant вообще.
Так что давайте поговорим о том, что именно мы используем и как построена наша система.
Все начинается, конечно, с нашего опыта работы с Ассистентом. И как вы видели сегодня, этот опыт глубоко интегрирован в систему — в iOS, iPadOS и macOS. Вы видели на iPhone, как Ассистент появляется — по-моему, очень красиво — в стиле «Жидкого стекла» (Liquid Glass) из Dynamic Island, как его можно вызвать боковой кнопкой или обратившись к Siri по имени. Но более того, он интегрирован повсюду в системе. Используете ли вы инструменты для работы с текстом (Writing Tools) или вызываете контекстное меню — все это глубоко встроено в работу системы.
В эту систему встроено приложение Siri. Оно отлично подходит для того, чтобы вернуться к уже начатому разговору, посмотреть, что вы делали ранее, продолжить беседу или начать новую. Но это приложение не просто обращается к какой-то облачной модели. Оно построено на базе мощного системного программного обеспечения Apple Intelligence.
Сюда входит «Системный оркестратор» (System Orchestrator), который является ключом к архитектуре конфиденциальности всей нашей системы. Именно он координирует запросы к таким компонентам, как App Toolbox, предоставляющий доступ к действиям внутри ваших приложений, семантический индекс Spotlight для доступа к личным данным для выполнения вашего запроса и даже понимание контекста экрана, чтобы знать, на что вы смотрите в момент обращения к системе.
Это, в свою очередь, построено на наборе мощных моделей, работающих непосредственно на устройстве. Они справляются со всем: от распознавания речи до синтеза голоса, который отвечает вам, визуального понимания среды и контекста экрана, выявления значимых объектов, распознавания текста на экране и множества других задач.
В некоторых случаях модели способны обрабатывать ваши запросы к Siri полностью локально на устройстве. Но иногда «Системный оркестратор» понимает, что вопрос более сложный, и тогда ему требуется задействовать больше интеллекта. Он делает это, связываясь с нашими моделями, работающими в Private Cloud Compute.
Цель Private Cloud Compute — распространить те же гарантии конфиденциальности iPhone на облако, чтобы ваши запросы оставались полностью приватными. Они никогда не сохраняются, к ним никто не имеет доступа, включая Apple; они обрабатываются исключительно в момент запроса, и ничто не может получить к ним доступ. Все эти свойства не только глубоко заложены в архитектуру системы, но и постоянно проверяются сторонними исследователями.
В этой модели развертывания мы используем семейство — наше третье поколение — базовых моделей Apple (Apple Foundation Models), от моделей AFM Cloud и AFM Cloud Pro до моделей AFM Fusion и моделей для обработки изображений. Это именно те модели, которые являются результатом нашего сотрудничества с Google, и вы узнаете об этом больше в продолжении. Но они спроектированы для работы в нашей архитектуре развертывания. Эти модели разработаны специально для наших возможностей Apple Intelligence. Именно они стояли за всем, что вы видели в презентации сегодня утром.
Наконец, когда вы делаете запрос, касающийся текущих событий или других элементов мировых знаний, эти ответы подкрепляются обращением к сервису мировых знаний Apple (Apple’s World Knowledge Service). Это решение, которое мы создавали много лет, и оно является отличным источником информации для выполнения ваших запросов.
Таким образом, эта система поддерживает весь спектр возможностей Apple Intelligence, которые вы видели ранее. Надеюсь, это закладывает основу для нашего обсуждения. А сейчас мы хотели бы пригласить членов команды руководителей, которые участвовали в разработке всего этого.
Субраманья добавил:
Мы невероятно рады нашему третьему поколению базовых моделей Apple (AFM), созданных в партнерстве с Google. Мы построили семейство моделей, охватывающих всё: от работы на устройстве до облака. Перед тем как я расскажу о каждой из моделей, хочу отметить главное: каждое поколение стало значительно лучше как по качеству, так и по возможностям по сравнению с предыдущим.
Говоря о каждой модели, начнем с тех, что работают на устройстве. Во-первых, это AFM Core. Это следующее поколение нашей модели для устройств, которые мы поставляем сегодня. Она использует плотную архитектуру.
Далее идет AFM Core Advanced.
Это не похоже ни на одну модель для устройств, которую мы запускали ранее. Она использует разреженную архитектуру и является нативно мультимодальной. В результате это дает огромный скачок в возможностях, позволяя реализовать функции, о которых вы слышали сегодня утром, например, выразительные голоса — и все это работает полностью на устройстве благодаря данной модели.
Переходя к нашим серверным моделям, которые работают через Private Cloud Compute. Во-первых, это AFM Cloud. Это наша основная рабочая модель для сервера. Она оптимизирована для работы с задержками и стоимости обслуживания.
Затем идет AFM Cloud Image. Это наше следующее поколение моделей для генерации и редактирования изображений, которое открывает ряд удивительных возможностей, включая такие вещи, как пространственное перекадрирование (spatial reframing), о чем вы также слышали сегодня утром.
И все эти четыре модели — AFM Core, Core Advanced, Cloud и Cloud Image — являются кастомными сборками для Apple Silicon, обученными на проприетарных данных и доработанными с использованием разработок от передовых моделей Gemini.
И наконец, для самых требовательных задач, таких как использование агентных инструментов и сложное логическое мышление, у нас есть AFM Cloud Pro. Это наша самая мощная модель, по качеству сопоставимая с передовыми моделями Gemini.
Чтобы внедрить эту модель в производство, мы работали как с Google, так и с Nvidia, чтобы расширить нашу инфраструктуру Private Cloud Compute с использованием графических процессоров NVIDIA в облаке Google, сохраняя при этом непревзойденные гарантии конфиденциальности Apple, верно?
Итак, цель всего этого семейства моделей — подобрать для каждого запроса пользователя ту модель, которая обеспечит наилучший ответ с минимальной задержкой. Мы очень рады этому следующему поколению моделей и тем потрясающим возможностям, которые они позволяют нам создавать, включая новый опыт работы с Siri AI и все невероятные интеллектуальные функции по всей ОС.
Продолжение следует…
Избранное от Ченса:
- Добавьте беспроводной CarPlay в любой автомобиль
- «Apple: Первые 50 лет» Дэвида Пога
- AirPods Pro 3: $199 (рег. цена $199)
- Logitech MX Master 4
- Зарядное устройство Belkin 3-в-1 MagSafe
- Плетеные кабели зарядки Beats USB-C
Подписаться на Ченса: Threads, Bluesky, Instagram и Mastodon.