
Новое исследование при поддержке Apple, проведенное в сотрудничестве с Университетом Аалто в Финляндии, представляет ILuvUI: модель «видение-язык», обученную понимать интерфейсы мобильных приложений по скриншотам и диалогам на естественном языке. Вот что это значит и как это было сделано.
ILuvUI: ИИ, превзошедший модель, на которой он был основан
В статье ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations команда решает давнюю проблему в области человеко-машинного взаимодействия, или HCI: обучение моделей ИИ рассуждать об пользовательских интерфейсах так же, как это делают люди, что на практике означает визуальное и семантическое понимание.
«Понимание и автоматизация действий в пользовательских интерфейсах — сложная задача, поскольку элементы интерфейса на экране, такие как элементы списка, флажки и текстовые поля, содержат множество слоев информации помимо их интерактивных возможностей. (…) Особенно большие языковые модели продемонстрировали замечательные способности понимать инструкции к задачам на естественном языке во многих областях, однако использование только текстовых описаний пользовательских интерфейсов с большими языковыми моделями упускает богатую визуальную информацию пользовательского интерфейса.»
В настоящее время, как объясняют исследователи, большинство моделей «видение-язык» обучаются на естественных изображениях, таких как собаки или дорожные знаки, поэтому они работают хуже, когда их просят интерпретировать более структурированные среды, такие как интерфейсы приложений:
«Объединение визуальной и текстовой информации важно для понимания пользовательских интерфейсов, поскольку это отражает то, как многие люди взаимодействуют с миром. Одним из подходов, который стремился преодолеть этот разрыв применительно к естественным изображениям, являются модели «видение-язык» (VLM), которые принимают мультимодальные входные данные как изображений, так и текста, обычно выдают только текст и позволяют отвечать на общие вопросы, выполнять визуальные рассуждения, описывать сцены и вести диалоги с входными изображениями. Однако производительность этих моделей в задачах, связанных с пользовательскими интерфейсами, уступает производительности на естественных изображениях из-за отсутствия примеров пользовательских интерфейсов в их обучающих данных.»
Учитывая это, исследователи доработали модель с открытым исходным кодом VLM LLaVA, а также адаптировали ее метод обучения для специализации в области пользовательских интерфейсов.
Они обучили ее на парах «текст-изображение», которые были синтетически сгенерированы по нескольким «золотым примерам». Конечный набор данных включал взаимодействия в стиле «вопрос-ответ», подробные описания экранов, предсказанные результаты действий и даже многошаговые планы (например, «как прослушать последний эпизод подкаста» или «как изменить настройки яркости»).
После обучения на этом наборе данных получившаяся модель, ILuvUI, смогла превзойти оригинальную LLaVA как в машинных бенчмарках, так и в тестах на предпочтение людей.

Более того, ей не требуется, чтобы пользователь указывал область интереса в интерфейсе. Вместо этого модель контекстуально понимает весь экран по простому запросу:
ILuvUI (…) не требует указания области интереса и принимает текстовый запрос в качестве входных данных в дополнение к изображению пользовательского интерфейса, что позволяет ей предоставлять ответы для сценариев использования, таких как визуальный ответ на вопросы.

Какую пользу это принесет пользователям?
Исследователи Apple говорят, что их подход может оказаться полезным для обеспечения доступности, а также для автоматизированного тестирования пользовательских интерфейсов. Они также отмечают, что, хотя ILuvUI по-прежнему основана на открытых компонентах, будущая работа может включать более крупные кодировщики изображений, лучшее разрешение и форматы вывода, которые беспрепятственно работают с существующими фреймворками пользовательских интерфейсов, такими как JSON.
И если вы следили за исследовательскими работами Apple в области искусственного интеллекта, вы, возможно, вспомните недавнее исследование того, могут ли модели ИИ не только понимать, но и предсказывать последствия действий в приложениях.
Объедините эти два аспекта, и все начнет становиться… интересным, особенно если вы полагаетесь на специальные возможности для навигации по своим устройствам или просто хотите, чтобы операционная система могла автономно выполнять более кропотливые части ваших рабочих процессов в приложениях.
Скидки на внешние накопители на Amazon
- Seagate Portable 2TB HDD, USB 3.0: $79.99
- SanDisk 2TB Extreme Portable SSD, USB-C: $134.99 (было $209.99)
- Samsung T7 1TB Portable SSD, USB 3.2 Gen 2: $89.99 (было $129.99)
- WD 5TB Elements Portable External HDD, USB 3.2 Gen 1: $123.99 (было $139.99)