Исследователи Apple разработали локальный ИИ-агент, который взаимодействует с приложениями за вас

Несмотря на всего 3 миллиарда параметров, Ferret-UI Lite соответствует или превосходит эталонную производительность моделей, в 24 раза превосходящих его по размеру. Вот подробности.

Немного о Ferret

В декабре 2023 года команда из 9 исследователей опубликовала исследование под названием «FERRET: Refer and Ground Anything Anywhere at Any Granularity» (FERRET: указывай и обосновывай что угодно где угодно с любой степенью детализации). В нем они представили мультимодальную большую языковую модель (MLLM), способную понимать естественные языковые ссылки на определенные части изображения:

Image: Apple

С тех пор Apple опубликовала серию последующих работ, расширяющих семейство моделей Ferret, включая Ferretv2, Ferret-UI и Ferret-UI 2.

В частности, варианты Ferret-UI расширили исходные возможности FERRET и были обучены для преодоления того, что исследователи определили как недостаток MLLM общего назначения.

Из оригинальной статьи Ferret-UI:

Недавние достижения в области мультимодальных больших языковых моделей (MLLM) заслуживают внимания, однако эти MLLM общего назначения часто не справляются со своей способностью эффективно понимать и взаимодействовать с экранами пользовательского интерфейса (UI). В этой статье мы представляем Ferret-UI, новую MLLM, разработанную для улучшения понимания экранов мобильных UI, оснащенную возможностями определения ссылок, обоснования и рассуждения. Учитывая, что экраны UI обычно имеют более вытянутое соотношение сторон и содержат меньшие объекты интереса (например, значки, тексты), чем естественные изображения, мы добавляем «любое разрешение» поверх Ferret для увеличения деталей и использования улучшенных визуальных признаков.

Image: Apple
Оригинальное исследование Ferret-UI включало интересное применение технологии, где пользователь мог общаться с моделью, чтобы лучше понять, как взаимодействовать с интерфейсом, как показано справа.

Несколько дней назад Apple еще больше расширила семейство моделей Ferret-UI, выпустив исследование под названием Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents (Ferret-UI Lite: уроки создания небольших локальных GUI-агентов).

Ferret-UI был построен на основе модели с 13 миллиардами параметров, которая в основном фокусировалась на понимании мобильных UI и скриншотах с фиксированным разрешением. Между тем, Ferret-UI 2 расширил систему для поддержки нескольких платформ и восприятия с более высоким разрешением.

В отличие от этого, Ferret-UI Lite — это гораздо более легкая модель, разработанная для работы локально, при этом оставаясь конкурентоспособной с значительно более крупными GUI-агентами.

Ferret-UI Lite

Согласно исследователям новой статьи, «большинство существующих методов GUI-агентов […] фокусируются на больших базовых моделях». Это связано с тем, что «сильные возможности рассуждения и планирования больших серверных моделей позволяют этим агентным системам достигать впечатляющих возможностей в различных задачах навигации по GUI».

Они отмечают, что, хотя был достигнут значительный прогресс как в многоагентных, так и в сквозных системах GUI, которые используют разные подходы для оптимизации множества задач, связанных с агентным взаимодействием с GUI («низкоуровневое обоснование GUI, понимание экрана, многошаговое планирование и самоанализ»), они, по сути, слишком велики и требовательны к вычислительным ресурсам, чтобы хорошо работать локально.

Поэтому они решили разработать Ferret-UI Lite, вариант Ferret-UI с 3 миллиардами параметров, который «построен с использованием нескольких ключевых компонентов, основанных на понимании обучения небольших» языковых моделей.

Ferret-UI Lite использует:

  • Реальные и синтетические обучающие данные из нескольких доменов GUI;
  • Методы обрезки и масштабирования «на лету» (во время выполнения) для лучшего понимания конкретных сегментов GUI;
  • Методы контролируемого дообучения и обучения с подкреплением.

В результате получилась модель, которая в значительной степени соответствует или даже превосходит конкурирующие модели GUI-агентов, имеющие в 24 раза больше параметров.

Image: Apple

Хотя вся архитектура (подробно описанная в исследовании) интересна, методы обрезки и масштабирования в реальном времени особенно заслуживают внимания.

Модель делает первоначальное предсказание, обрезает изображение вокруг него, а затем повторно предсказывает на этой обрезанной области. Это помогает такой небольшой модели компенсировать ограниченную способность обрабатывать большое количество токенов изображения.

Image: Apple

Еще одним примечательным вкладом статьи является то, как Ferret-UI Lite фактически генерирует свои собственные обучающие данные. Исследователи создали многоагентную систему, которая напрямую взаимодействует с живыми GUI-платформами для производства синтетических обучающих примеров в масштабе.

Существует генератор задач по учебному плану, который предлагает цели возрастающей сложности, планирующий агент разбивает их на этапы, обосновывающий агент выполняет их на экране, а модель-критик оценивает результаты.

Image: Apple

С помощью этого конвейера обучающая система улавливает непредсказуемость реального взаимодействия (такую как ошибки, неожиданные состояния и стратегии восстановления), что было бы гораздо сложнее сделать при использовании чистых, аннотированных человеком данных.

Интересно, что, хотя Ferret-UI и Ferret-UI 2 использовали скриншоты iPhone и другие интерфейсы Apple в своих оценках, Ferret-UI Lite обучался и оценивался на средах GUI Android, веб и настольных ПК, используя такие эталоны, как AndroidWorld и OSWorld.

Исследователи не указывают явно, почему они выбрали такой путь для Ferret-UI Lite, но это, вероятно, отражает, где сегодня доступны воспроизводимые, крупномасштабные тестовые площадки для GUI-агентов.

Как бы то ни было, исследователи обнаружили, что, хотя Ferret-UI Lite хорошо показал себя в краткосрочных задачах низкого уровня, он не так хорошо справился с более сложными многошаговыми взаимодействиями, что является компромиссом, который в значительной степени ожидаем, учитывая ограничения небольшой локальной модели.

С другой стороны, Ferret-UI Lite предлагает локальный и, как следствие, приватный (поскольку данные не нужно отправлять в облако и обрабатывать на удаленных серверах) агент, который автономно взаимодействует с интерфейсами приложений на основе запросов пользователя, что, по всем отзывам, довольно круто.

Чтобы узнать больше об исследовании, включая разбивку эталонов и результаты, перейдите по этой ссылке.

Акции на аксессуары на Amazon