
Недавно Siri пыталась описывать изображения, полученные в «Сообщениях» при использовании CarPlay или функции озвучивания уведомлений. В типичной для Siri манере эта функция работает непоследовательно и с переменным успехом.
Тем не менее, Apple продолжает развивать ИИ. В недавно опубликованной исследовательской работе гуру Apple в области ИИ описывают систему, в которой Siri может делать гораздо больше, чем просто распознавать содержимое изображения. Самое приятное? Они считают, что одна из их моделей для этого превосходит ChatGPT 4.0 по бенчмаркам.
В документе (ReALM: Reference Resolution As Language Modeling) Apple описывает то, что может повысить полезность голосового помощника на основе большой языковой модели. ReALM учитывает как содержимое экрана, так и активные задачи. Вот выдержка из документа, описывающая задачу:
1. Объекты на экране: Это объекты, которые в данный момент отображаются на экране пользователя.
2. Объекты диалога: Это объекты, имеющие отношение к разговору. Эти объекты могут поступать из предыдущего обращения пользователя (например, когда пользователь говорит «Позвони маме», соответствующим объектом будет контакт «Мама») или от виртуального ассистента (например, когда агент предлагает пользователю список мест или будильников на выбор).
3. Фоновые объекты: Это релевантные объекты, поступающие из фоновых процессов, которые не обязательно являются прямой частью того, что пользователь видит на экране, или его взаимодействия с виртуальным агентом; например, будильник, который начинает звонить, или музыка, играющая в фоновом режиме.
Если это будет работать хорошо, то это, похоже, рецепт для более умной и полезной Siri. Apple также уверена в своей способности выполнять такие задачи с впечатляющей скоростью. Бенчмаркинг сравнивается с ChatGPT 3.5 и ChatGPT 4.0 от OpenAI:
В качестве другого базового уровня мы используем варианты ChatGPT GPT-3.5 (Brown et al., 2020; Ouyang et al., 2022) и GPT-4 (Achiam et al., 2023), доступные на 24 января 2024 года, с обучением в контексте. Как и в нашей настройке, мы стремимся, чтобы оба варианта предсказывали список объектов из доступного набора. В случае GPT-3.5, который принимает только текст, наш ввод состоит только из подсказки; однако в случае GPT-4, который также имеет возможность контекстуализации на изображениях, мы предоставляем системе скриншот для задачи разрешения ссылок на экране, что, как мы обнаружили, существенно улучшает производительность.
Итак, как показывает себя модель Apple?
Мы демонстрируем значительные улучшения по сравнению с существующей системой с аналогичной функциональностью для различных типов ссылок, причем наша самая маленькая модель достигает абсолютного прироста более чем на 5% для ссылок на экране. Мы также проводим бенчмаркинг с GPT-3.5 и GPT-4, при этом наша самая маленькая модель достигает производительности, сравнимой с GPT-4, а наши более крупные модели существенно превосходят его.
Существенно превосходят, говорите? Документ частично завершается следующим образом:
Мы показываем, что ReaLM превосходит предыдущие подходы и примерно соответствует текущему состоянию технологий LLM, GPT-4, несмотря на значительно меньшее количество параметров, даже для ссылок на экране, несмотря на то, что он находится исключительно в текстовой области. Он также превосходит GPT-4 для пользовательских высказываний в конкретной предметной области, что делает ReaLM идеальным выбором для практической системы разрешения ссылок, которая может существовать на устройстве без ущерба для производительности.
На устройстве без ущерба для производительности — похоже, это ключевой момент для Apple. Следующие несколько лет развития платформы должны быть интересными, надеемся, начиная с iOS 18 и WWDC 2024 10 июня.