Apple тестирует, могут ли ИИ-помощники предвидеть последствия действий в приложениях

Поскольку ИИ-агенты приближаются к совершению реальных действий от нашего имени (отправка сообщений, покупка чего-либо, изменение настроек учетной записи и т. д.), новое исследование, соавтором которого является Apple, изучает, насколько хорошо эти системы действительно понимают последствия своих действий. Вот что они выяснили.

Представленная недавно на конференции ACM по интеллектуальным пользовательским интерфейсам в Италии, статья «От взаимодействия к воздействию: к более безопасным ИИ-агентам через понимание и оценку воздействия мобильных пользовательских интерфейсов» представляет собой подробную основу для понимания того, что может произойти, когда ИИ-агент взаимодействует с мобильным пользовательским интерфейсом.

Интерес этой статьи заключается в том, что она исследует не только то, могут ли агенты нажать правильную кнопку, но и то, могут ли они предвидеть последствия того, что может произойти после нажатия, и следует ли им продолжать.

От исследователей:

«В то время как предыдущие исследования изучали механику того, как ИИ-агенты могут перемещаться по пользовательским интерфейсам и понимать их структуру, влияние агентов и их автономных действий — особенно тех, которые могут быть рискованными или необратимыми — остается недостаточно изученным. В этой работе мы исследуем реальные последствия мобильных действий, совершаемых ИИ-агентами».

Классификация рискованных взаимодействий

Предпосылка исследования заключается в том, что большинство наборов данных для обучения UI-агентов сегодня состоят из относительно безвредных вещей: просмотр ленты, открытие приложения, прокрутка параметров. Поэтому исследование поставило перед собой цель пойти немного дальше.

В исследовании участникам было поручено использовать реальные мобильные приложения и записывать действия, которые вызвали бы у них дискомфорт, если бы их выполнил ИИ без их разрешения. Например, отправка сообщений, изменение паролей, редактирование данных профиля или совершение финансовых операций.

Затем эти действия были помечены с использованием недавно разработанной структуры, которая учитывает не только непосредственное воздействие на интерфейс, но и такие факторы, как:

  • Намерение пользователя: Чего пытается достичь пользователь? Это информационное, транзакционное, коммуникационное или просто базовое навигационное действие?
  • Воздействие на пользовательский интерфейс: Изменяет ли действие внешний вид интерфейса, то, что он отображает, или куда он вас ведет?
  • Воздействие на пользователя: Может ли это повлиять на конфиденциальность, данные, поведение или цифровые активы пользователя?
  • Обратимость: Если что-то пойдет не так, можно ли это легко отменить? Или вообще?
  • Частота: Это то, что обычно делается время от времени или постоянно?

В результате была создана структура, которая помогает исследователям оценивать, учитывают ли модели такие вещи, как: «Можно ли это отменить одним нажатием?», «Уведомляет ли это кого-то еще?», «Оставляет ли это след?» и принимать это во внимание, прежде чем действовать от имени пользователя.

Тестирование суждений ИИ

После создания набора данных команда прогнала его через пять больших языковых моделей, включая GPT-4, Google Gemini и собственную разработку Apple Ferret-UI, чтобы увидеть, насколько хорошо они смогли классифицировать влияние каждого действия.

Результат? Google Gemini показал лучшие результаты в так называемых zero-shot тестах (точность 56%), которые измеряют, насколько хорошо ИИ может выполнять задачи, которым он явно не обучался. Тем временем мультимодальная версия GPT-4 лидировала (точность 58%) в оценке влияния при запросе на пошаговое рассуждение с использованием методов chain-of-thought.

Мнение 9to5Mac

По мере того как голосовые помощники и агенты становятся лучше в выполнении команд на естественном языке («Забронируй мне рейс», «Отмени ту подписку» и т. д.), настоящая проблема безопасности заключается в наличии агента, который знает, когда нужно запросить подтверждение или даже когда не действовать вовсе.

Это исследование пока не решает эту проблему, но оно предлагает измеримый эталон для тестирования того, насколько хорошо модели понимают ставки своих действий.

И хотя существует множество исследований по выравниванию — более широкой области безопасности ИИ, касающейся обеспечения того, чтобы агенты делали то, что на самом деле хотят люди, — исследования Apple добавляют новое измерение. Они ставят под сомнение, насколько хорошо ИИ-агенты предсказывают результаты своих действий и что они делают с этой информацией до того, как действовать.

Аксессуары Apple на Amazon