Новое исследование Apple учит роботов действовать, наблюдая за видео от первого лица с участием людей

Marcus Mendes | Среда, 21 мая, 2025, 13:47.

Маркус Мендес | 21 мая 2025 г. — 12:48 PT

В новой статье под названием «Humanoid Policy ∼ Human Policy» исследователи Apple предлагают интересный способ обучения гуманоидных роботов. И это включает в себя использование Apple Vision Pro.

Робот видит, робот делает

Проект является результатом сотрудничества Apple, MIT, Университета Карнеги — Меллона, Вашингтонского университета и Калифорнийского университета в Сан-Диего. Он исследует, как видео от первого лица, снятое людьми, манипулирующими объектами, можно использовать для обучения универсальных моделей роботов.

В общей сложности исследователи собрали более 25 000 демонстраций действий человека и 1 500 демонстраций действий робота (набор данных, который они назвали PH2D) и передали их унифицированной ИИ-политике, которая затем могла управлять реальным гуманоидным роботом в физическом мире.

Как объясняют авторы :

Обучение политик манипулирования для гуманоидных роботов с использованием разнообразных данных повышает их надежность и обобщающую способность в различных задачах и на разных платформах. Однако обучение только на основе демонстраций роботов является трудоемким и требует дорогостоящего сбора данных с помощью телеуправления, который трудно масштабировать.

В этой статье исследуется более масштабируемый источник данных — эгоцентрические демонстрации действий человека — для использования в качестве кросс-воплощенных обучающих данных для обучения роботов.

Их решение? Пусть люди покажут путь.

Более дешевое и быстрое обучение

Для сбора обучающих данных команда разработала приложение Apple Vision Pro, которое записывает видео с нижнелевой камеры устройства и использует Apple ARKit для отслеживания 3D-движений головы и рук.

Однако, чтобы найти более доступное решение, они также напечатали на 3D-принтере крепление для установки стереокамеры ZED Mini на другие гарнитуры, такие как Meta Quest 3, обеспечивая аналогичное отслеживание 3D-движений при более низкой стоимости.

В результате получилась установка, которая позволила им записывать высококачественные демонстрации за секунды, что является значительным улучшением по сравнению с традиционными методами телеуправления роботами, которые медленнее, дороже и их сложнее масштабировать.

И вот еще одна интересная деталь: поскольку люди двигаются намного быстрее роботов, исследователи замедляли демонстрации действий человека в четыре раза во время обучения, как раз достаточно, чтобы робот мог не отставать, не требуя дальнейшей настройки.

Human Action Transformer (HAT)

Ключом ко всему исследованию является HAT — модель, обученная как на демонстрациях действий человека, так и робота в общем формате.

Вместо разделения данных по источникам (люди против роботов), HAT обучается единой политике, которая обобщается на оба типа тел, делая систему более гибкой и эффективной с точки зрения использования данных.

В некоторых тестах этот общий подход к обучению помог роботу справляться с более сложными задачами, в том числе с теми, которые он ранее не видел, по сравнению с более традиционными методами.

Размер набора данных PH2D по сравнению с традиционными методами

В целом, исследование весьма интересно и стоит ознакомиться, если вы увлекаетесь робототехникой.

Пугает ли вас идея домашнего робота-гуманоида, или вы воспринимаете ее с восторгом или считаете бессмысленной? Дайте нам знать в комментариях.