Apple обучает ИИ-систему понимать экраны приложений — это может улучшить Siri

Ben Lovejoy | Вторник, 9 апреля, 2024, 11:59.

Бен Лавджой | 9 апр 2024 г. — 6:29 утра PT

Apple в своей исследовательской работе описывает разработку Ferret-UI — генеративной ИИ-системы, специально предназначенной для анализа экранов приложений.

В статье несколько туманно говорится о потенциальных применениях этой технологии — вероятно, намеренно. Но наиболее захватывающей возможностью является создание гораздо более продвинутой Siri…

Проблемы выхода за пределы ChatGPT

Большие языковые модели (LLM) — это основа таких систем, как ChatGPT. Учебным материалом для них служит текст, в основном взятый с веб-сайтов.

MLLM — или Мультимодальные большие языковые модели — предназначены для расширения способности ИИ-систем анализировать нетекстовую информацию: изображения, видео и аудио.

В настоящее время MLLM не очень хорошо справляются с пониманием того, что отображается на экранах мобильных приложений. Этому есть несколько причин, начиная с прозаичной: соотношение сторон экранов смартфонов отличается от соотношения сторон большинства обучающих изображений.

Более конкретно, многие изображения, которые им нужно распознавать, например, значки и кнопки, очень малы.

Кроме того, вместо того, чтобы воспринимать информацию за один прием, как при анализе статичного изображения, им необходимо взаимодействовать с приложением.

Ferret-UI от Apple

Именно эти проблемы, по мнению исследователей Apple, удалось решить с помощью MLLM-системы под названием Ferret-UI (UI означает пользовательский интерфейс).

Учитывая, что экраны пользовательских интерфейсов обычно имеют более вытянутое соотношение сторон и содержат более мелкие объекты интереса (например, значки, текст), чем естественные изображения, мы дополняем Ferret функцией «любое разрешение» для увеличения деталей и использования улучшенных визуальных признаков…

Мы тщательно собираем обучающие выборки из широкого спектра элементарных задач пользовательского интерфейса, таких как распознавание значков, поиск текста и перечисление виджетов. Эти выборки форматируются для выполнения инструкций с аннотациями регионов, чтобы облегчить точное указание и привязку. Чтобы повысить способность модели к рассуждению, мы также компилируем набор данных для продвинутых задач, включая детальное описание, диалоги восприятия/взаимодействия и вывод функций.

Результат, как утверждают разработчики, превосходит как GPT-4V, так и другие существующие MLLM, ориентированные на пользовательский интерфейс.

От разработки пользовательского интерфейса к высокоразвитой Siri

В работе описывается, чего удалось достичь, а не как это может быть использовано. Это характерно для многих исследовательских работ, и этому может быть несколько причин.

Во-первых, сами исследователи могут *не знать*, как их работа может быть в конечном итоге использована. Они сосредоточены на решении технической проблемы, а не на потенциальных применениях. Может потребоваться специалист по продуктам, чтобы увидеть потенциальные способы использования.

Во-вторых, особенно когда речь идет об Apple, им может быть поручено не раскрывать предполагаемое использование или быть намеренно уклончивыми в этом вопросе.

Но мы можем выделить три потенциальных способа использования этой возможности…

Во-первых, это может стать полезным инструментом для оценки эффективности пользовательского интерфейса. Разработчик может создать черновую версию приложения, а затем позволить Ferret-UI определить, насколько легко или трудно его понять и использовать. Это может быть быстрее и дешевле, чем тестирование удобства использования с участием людей.

Во-вторых, это может иметь применение в области доступности. Вместо простого экранного диктора, который зачитывает все на экране iPhone слепому человеку, например, система может резюмировать, что отображается на экране, и перечислять доступные параметры. Пользователь затем сможет сообщить iOS, что он хочет сделать, и позволить системе выполнить это.

Apple приводит пример этого: Ferret-UI получает экран с подкастами. Результат работы системы: «Экран предназначен для приложения подкастов, где пользователи могут просматривать и проигрывать новые и популярные подкасты, с возможностью воспроизведения, загрузки и поиска конкретных подкастов».

В-третьих, и это самое захватывающее, — система может быть использована для работы очень продвинутой версии Siri, где пользователь может дать Siri команду вроде «Проверь рейсы из JFK в Бостон на завтра и забронируй место на рейсе, который доставит меня туда к 10 утра с общей стоимостью билета менее 200 долларов». Затем Siri взаимодействовала бы с приложением авиакомпании, чтобы выполнить эту задачу.

Спасибо, AK. Композитное изображение 9to5mac от Solen Feyissa на Unsplash и Apple.