
В новой статье под названием «Humanoid Policy ∼ Human Policy» исследователи Apple предлагают интересный способ обучения гуманоидных роботов. И это включает в себя использование Apple Vision Pro.
Робот видит, робот делает
Проект является результатом сотрудничества Apple, MIT, Университета Карнеги — Меллона, Вашингтонского университета и Калифорнийского университета в Сан-Диего. Он исследует, как видео от первого лица, снятое людьми, манипулирующими объектами, можно использовать для обучения универсальных моделей роботов.
В общей сложности исследователи собрали более 25 000 демонстраций действий человека и 1 500 демонстраций действий робота (набор данных, который они назвали PH2D) и передали их унифицированной ИИ-политике, которая затем могла управлять реальным гуманоидным роботом в физическом мире.
Обучение политик манипулирования для гуманоидных роботов с использованием разнообразных данных повышает их надежность и обобщающую способность в различных задачах и на разных платформах. Однако обучение только на основе демонстраций роботов является трудоемким и требует дорогостоящего сбора данных с помощью телеуправления, который трудно масштабировать.
В этой статье исследуется более масштабируемый источник данных — эгоцентрические демонстрации действий человека — для использования в качестве кросс-воплощенных обучающих данных для обучения роботов.
Их решение? Пусть люди покажут путь.
Более дешевое и быстрое обучение
Для сбора обучающих данных команда разработала приложение Apple Vision Pro, которое записывает видео с нижнелевой камеры устройства и использует Apple ARKit для отслеживания 3D-движений головы и рук.
Однако, чтобы найти более доступное решение, они также напечатали на 3D-принтере крепление для установки стереокамеры ZED Mini на другие гарнитуры, такие как Meta Quest 3, обеспечивая аналогичное отслеживание 3D-движений при более низкой стоимости.

В результате получилась установка, которая позволила им записывать высококачественные демонстрации за секунды, что является значительным улучшением по сравнению с традиционными методами телеуправления роботами, которые медленнее, дороже и их сложнее масштабировать.
И вот еще одна интересная деталь: поскольку люди двигаются намного быстрее роботов, исследователи замедляли демонстрации действий человека в четыре раза во время обучения, как раз достаточно, чтобы робот мог не отставать, не требуя дальнейшей настройки.
Human Action Transformer (HAT)
Ключом ко всему исследованию является HAT — модель, обученная как на демонстрациях действий человека, так и робота в общем формате.
Вместо разделения данных по источникам (люди против роботов), HAT обучается единой политике, которая обобщается на оба типа тел, делая систему более гибкой и эффективной с точки зрения использования данных.
В некоторых тестах этот общий подход к обучению помог роботу справляться с более сложными задачами, в том числе с теми, которые он ранее не видел, по сравнению с более традиционными методами.

В целом, исследование весьма интересно и стоит ознакомиться, если вы увлекаетесь робототехникой.
Пугает ли вас идея домашнего робота-гуманоида, или вы воспринимаете ее с восторгом или считаете бессмысленной? Дайте нам знать в комментариях.