Как будет работать Siri на базе Gemini

На этой неделе Bloomberg сообщил, что Google и Apple близки к заключению годового соглашения на сумму 1 миллиард долларов за версию модели Gemini, которая будет использоваться в обновленной Siri в следующем году.

Но, пожалуй, более интересным, чем цена, является фактор, который действительно повлияет на опыт каждого: ее архитектура. Давайте посмотрим, как это, вероятно, будет работать.

Много ли 1,2 триллиона параметров?

Согласно отчету Bloomberg, Google предоставит Apple модель с 1,2 триллиона параметров, которая будет размещена на серверах Private Cloud Compute Apple, фактически не давая Google доступа к какой-либо информации. С точки зрения конфиденциальности, это отлично.

Что касается размера, то модель с 1,2 триллиона параметров — это не шутка. Однако прямое сравнение с последними и лучшими конкурирующими моделями весьма затруднительно.

Это связано с тем, что в последние годы закрытые передовые ИИ-лаборатории, такие как OpenAI, Anthropic и Google, перестали раскрывать количество параметров своих последних флагманских моделей. Это привело к крайне разным предположениям о реальном количестве параметров таких предложений, как GPT-5, Gemini 2.5 Pro и Claude Sonnet 4.5. Некоторые считают их менее триллиона параметров, в то время как другие предполагают, что они достигают нескольких триллионов. На самом деле, никто точно не знает.

С другой стороны, одна вещь, которую имеют большинство этих огромных новейших моделей, — это базовую архитектуру, известную как «смесь экспертов» (MoE). Фактически, Apple уже использует вариант MoE в своей текущей облачной модели, которая, по слухам, имеет 150 миллиардов параметров.

Модель Siri на базе Gemini, вероятно, будет использовать смесь экспертов

В двух словах, MoE — это техника, которая структурирует модель с несколькими специализированными подсетями, называемыми «экспертами». Для каждого входного сигнала активируются только несколько релевантных экспертов, что приводит к более быстрой и вычислительно эффективной модели.

Другими словами, это позволяет моделям MoE иметь очень большое количество параметров, сохраняя при этом затраты на вывод гораздо ниже, чем если бы 100% их параметров активировались для каждого входного сигнала.

Вот еще одна особенность моделей, использующих подход MoE: они обычно имеют максимальное количество активных экспертов и максимальное количество активных параметров для каждого входного сигнала, что приводит к следующему:

Модель с общим количеством параметров 1,2 триллиона может использовать 32 эксперта, при этом для каждого токена активно только 2–4 эксперта. Это означает, что в любой момент времени расчеты производят только около 75–150 миллиардов параметров, что дает вам мощность массивной модели, сохраняя при этом вычислительные затраты, аналогичные запуску гораздо меньшей модели.

Вот отличное видео от IBM, которое более подробно объясняет, как работает MoE:

Следует уточнить, что не было никаких сообщений об архитектуре модели, которую Google может предоставить Apple, если они заключат сделку о партнерстве. Но при 1,2 триллиона параметров, весьма вероятно, что для эффективной работы ей потребуется подход MoE, учитывая доступные сегодня альтернативы.

Будет ли этого размера достаточно, чтобы Siri на базе Gemini оставалась конкурентоспособной с моделями, которые будут доступны к моменту ее запуска в следующем году, — это уже другой вопрос.

Акции на аксессуары на Amazon