Новое исследование Apple открывает уличное навигационное приложение для незрячих пользователей

Нет недостатка в слухах о планах Apple выпустить носимые устройства с камерами. И хотя легко устать от очередной волны грядущего оборудования с поддержкой ИИ, одна мощная сфера применения часто теряется в суматохе: доступность.

SceneScout, новый исследовательский прототип от Apple и Колумбийского университета, пока не является носимым устройством. Но он намекает на то, что ИИ в конечном итоге может открыть для незрячих и слабовидящих пользователей. Как объясняют исследователи Apple и Колумбийского университета:

Люди, слепые или с ослабленным зрением (BLV), могут колебаться передвигаться самостоятельно в незнакомой обстановке из-за неуверенности в физическом ландшафте. В то время как большинство инструментов сосредоточены на навигации на месте, те, что предлагают помощь перед поездкой, обычно предоставляют только ориентиры и пошаговые инструкции, не имея подробного визуального контекста. Панорамные снимки улиц, содержащие богатую визуальную информацию и потенциал раскрыть многочисленные детали окружающей среды, остаются недоступными для людей с BLV.

Чтобы попытаться сократить этот разрыв, исследователи представляют этот проект, который сочетает в себе API Apple Maps с мультимодальной большой языковой моделью для предоставления интерактивных, сгенерированных ИИ описаний панорамных снимков улиц.

Image: SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users

Вместо того чтобы просто полагаться на пошаговые указания или ориентиры, пользователи могут исследовать весь маршрут или виртуально исследовать район блок за блоком, получая уличные описания, адаптированные к их конкретным потребностям и предпочтениям.

Система поддерживает два основных режима:

  • Предварительный просмотр маршрута, который позволяет пользователям получить представление о том, что их ждет по определенному пути. Это означает качество тротуаров, перекрестки, визуальные ориентиры, как выглядит автобусная остановка и т. д.
Image: SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users
  • Виртуальное исследование, которое является более открытым. Пользователи описывают, что они ищут (например, тихий жилой район с доступом к паркам), а ИИ помогает им ориентироваться на перекрестках и исследовать в любом направлении на основе этого намерения.
Image: SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users

За кулисами SceneScout объединяет агент на базе GPT-4o с реальными картографическими данными и панорамными изображениями из Apple Maps.

Он имитирует вид пешехода, интерпретирует видимое и выдает структурированный текст, разбитый на короткие, средние или длинные описания. Веб-интерфейс, разработанный с учетом программ чтения с экрана, представляет все это в полностью доступном формате.

Первые тесты показали многообещающие, но также важные (и опасные) недостатки

Исследовательская группа провела исследование с участием 10 незрячих или слабовидящих пользователей, большинство из которых хорошо владели программами чтения с экрана и работали в сфере технологий.

Участники использовали как предварительный просмотр маршрута, так и виртуальное исследование, и дали высокой оценку полезности и релевантности. Режим виртуального исследования был особенно высоко оценен, так как многие заявили, что он предоставил им доступ к информации, о которой им обычно приходилось спрашивать других.

Тем не менее, были важные недостатки. Хотя около 72% сгенерированных описаний были точными, некоторые включали тонкие галлюцинации, например, утверждение, что на перекрестке были звуковые сигналы, хотя их там не было, или даже неправильную маркировку уличных знаков.

И хотя большая часть информации оставалась стабильной с течением времени, некоторые описания ссылались на устаревшие или временные детали, такие как строительные зоны или припаркованные транспортные средства.

Image: SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users

Участники также отметили, что система иногда делала предположения как о физических способностях пользователя, так и об окружающей среде. Несколько пользователей подчеркнули необходимость более объективного языка и лучшей пространственной точности, особенно для навигации на последних метрах. Другие пожелали, чтобы система могла более динамично адаптироваться к их предпочтениям с течением времени, а не полагаться на статические ключевые слова.

SceneScout, очевидно, не является готовым продуктом, и он исследует сотрудничество между мультимодальной большой языковой моделью и API Apple Maps, а не навигацию по миру в реальном времени с помощью компьютерного зрения. Но можно легко провести линию от одного к другому. Фактически, это упоминается ближе к концу исследования:

Участники выразили сильное желание получать доступ к описаниям уличных видов в реальном времени во время ходьбы. Они представляли себе приложения, которые предоставляют визуальную информацию через наушники с костной проводимостью или режим прозрачности, чтобы предоставлять соответствующую информацию по мере их движения. Как сказал P9: «Почему [карты] не могут иметь встроенную возможность помогать [предоставлять] подробную информацию о том, мимо чего я иду».

Участники предложили использовать еще более короткие, «мини» (P1) описания во время ходьбы, выделяя только критические детали, такие как ориентиры или состояние тротуара. Более полные описания, т.е. длинные описания, могли бы вызываться по запросу, когда пользователи останавливаются или достигают перекрестков.

Другой участник (P4) предложил новую форму взаимодействия, в которой пользователи «могли бы направить устройство в определенном направлении», чтобы получать описания по запросу, вместо того чтобы физически выравнивать камеру телефона для съемки окружения. Это позволило бы пользователям активно сканировать свое окружение в режиме реального времени, делая навигацию более динамичной и отзывчивой.

Как и другие исследования, опубликованные на arXiv, SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users не проходили рецензирование. Тем не менее, это абсолютно стоит вашего времени, если вы хотите знать, куда неизбежно движутся ИИ, носимые устройства и компьютерное зрение.

Предложения AirPods на Amazon