
В новом исследовании Apple обучила модель ИИ распознавать жесты рук, которых не было в ее исходном наборе данных для обучения. Подробности — ниже.
Что такое ЭМГ?
Apple опубликовала новое исследование в своем блоге Machine Learning Research под названием EMBridge: Enhancing Gesture Generalization from EMG Signals through Cross-Modal Representation Learning. Это исследование будет представлено на конференции ICLR 2026 в апреле.
В нем исследователи объясняют, как они обучили модель ИИ распознавать жесты рук, даже если эти конкретные жесты отсутствовали в исходном наборе данных.
Для достижения этой цели они разработали EMBridge — «кросс-модальную систему обучения представлений, которая устраняет разрыв между модальностями ЭМГ и позы».
ЭМГ, или электромиография, измеряет электрическую активность, генерируемую мышцами во время сокращения. Ее практическое применение охватывает медицинскую диагностику, физиотерапию и управление протезами.
Совсем недавно (хотя это, безусловно, не новая область) она стала более широко исследоваться в носимых устройствах и системах AR/VR.
Например, очки Meta Ray-Ban Display используют технологию ЭМГ в виде того, что Meta называет Neural Band — носимое на запястье устройство, которое «интерпретирует сигналы ваших мышц для управления функциями Meta Ray-Ban Display», согласно описанию компании.
В исследовании Apple сигналы ЭМГ, использованные для обучения, не детектировались носимым на запястье устройством. Вместо этого исследователи использовали два набора данных:
- emg2pose: «[…] масштабный набор данных ЭМГ с открытым исходным кодом, содержащий 370 часов данных sEMG и синхронизированных данных позы рук от 193 пользователей с их согласия, 29 различных поведенческих групп, которые включают широкий спектр дискретных и непрерывных движений рук, таких как сжатие кулака или счет до пяти. Метки позы рук генерируются с использованием системы захвата движения высокого разрешения. Полный набор данных содержит более 80 миллионов меток позы и сопоставим по масштабу с крупнейшими эквивалентами в области компьютерного зрения. Каждый пользователь выполнил четыре сеанса записи для каждой категории жестов, каждый раз с разным размещением ЭМГ-диапазона. Каждый сеанс длился 45–120 секунд, в течение которых пользователи многократно выполняли смесь из 3–5 схожих жестов или неструктурированных движений от руки. В качестве входных последовательностей мы используем неперекрывающиеся 2-секундные окна. ЭМГ нормализуется по экземплярам, фильтруется полосовым фильтром (2–250 Гц) и подавляется фильтром на частоте 60 Гц».
- NinaPro DB2: «Мы использовали два набора данных ЭМГ NinaPro для более полной оценки EMBridge. В частности, Ninapro DB2 используется для предварительного обучения, которое включает парные данные ЭМГ-позы от 40 испытуемых. Он содержит 49 жестов рук (включая базовые сгибания пальцев, функциональные захваты и комбинированные движения), выполняемые 40 здоровыми испытуемыми. Сигналы ЭМГ записываются с 12 электродов, размещенных на предплечье с частотой дискретизации 2 кГц, наряду с данными кинематики рук, полученными с помощью перчатки для захвата. Для последующей классификации жестов мы используем NinaPro DB7, который содержит данные от 20 неампутированных испытуемых, собранные с помощью того же устройства ЭМГ и набора жестов, что и DB2
Учитывая все вышесказанное, легко представить, как EMBridge от Apple может проложить путь для будущей модели Apple Watch (или других носимых устройств) для управления такими устройствами, как Apple Vision Pro, Mac, iPhone и другими носимыми устройствами, включая, возможно, их разрабатываемые умные очки.
На практике, от новых методов взаимодействия до улучшения доступности, возможности могут быть значительными.
Конечно, само исследование, очевидно, не упоминает каких-либо конкретных будущих продуктов или приложений Apple, но оно заявляет следующее:
Потенциальным практическим применением нашего фреймворка является носимое человеко-компьютерное взаимодействие. В сценариях, таких как VR/AR и приложения для управления протезами, носимое на запястье устройство должно непрерывно выводить жесты рук из ЭМГ для управления виртуальным аватаром или роботизированной рукой.
Что такое EMBridge?
EMBridge — это способ, которым исследователи стремились преодолеть разрыв между реальными мышечными сигналами ЭМГ и структурированными данными позы рук.
Обученная с помощью кросс-модальной системы, модель сначала проходила предварительное обучение на данных ЭМГ и позы рук по отдельности.
Затем исследователи выровняли два представления, чтобы ЭМГ-энкодер мог учиться у позового энкодера. Это позволило EMBridge научиться распознавать закономерности жестов по сигналам ЭМГ.
После этого они обучили систему с использованием маскированной реконструкции позы, скрывая части данных позы и прося модель реконструировать их, используя только информацию, извлеченную из сигналов ЭМГ.

Результат, как объясняют исследователи:
«Насколько нам известно, EMBridge является первой кросс-модальной системой обучения представлений, достигшей классификации жестов с нулевым выстрелом по сигналам ЭМГ носимых устройств, демонстрируя потенциал для распознавания жестов в реальном мире на носимых устройствах».
Чтобы уменьшить ошибки обучения, вызванные тем, что схожие жесты трактовались как негативные, исследователи научили модель распознавать, когда позы представляют схожие конфигурации рук, позволяя ей генерировать мягкие цели для этих поз вместо того, чтобы рассматривать их как совершенно несвязанные.
Это помогло структурировать пространство представлений модели, улучшив ее способность обобщать жесты, которые она никогда раньше не видела.

Авторы оценили EMBridge на двух эталонных тестах, emg2pose и NinaPro, и обнаружили, что он последовательно превосходит существующие методы, особенно в распознавании жестов с нулевым выстрелом (или ранее невиданных). Важно отметить, что это было достигнуто всего с 40% обучающих данных.

Одним из важных ограничений, отмеченных в статье, является то, что модель полагается на наборы данных, содержащие как сигналы ЭМГ, так и синхронизированные данные позы рук. Это означает, что ее обучение по-прежнему зависит от специализированных наборов данных, которые могут быть трудны для сбора.
Тем не менее, исследование интересно, особенно в то время, когда управление устройствами на основе ЭМГ, кажется, набирает обороты.
Полные технические сведения об EMBridge, включая его компоненты Q-Former, MPRL и CASCLe, можно найти, перейдя по этой ссылке.
Стоит посмотреть на Amazon