Новое исследование Apple показывает, что LLM могут определять, что вы делаете, по данным аудио и движения

Исследователи Apple опубликовали исследование, посвященное тому, как LLM могут анализировать данные аудио и движения для лучшего понимания действий пользователя. Вот детали.

Они хорошо с этим справляются, но без жути

Новая статья под названием «Использование LLM для позднего мультимодального слияния датчиков для распознавания активности» дает представление о том, как Apple может рассматривать возможность интеграции анализа LLM наряду с традиционными данными датчиков для более точного понимания активности пользователя.

По их утверждению, это имеет большой потенциал для повышения точности анализа активности, даже в ситуациях, когда данных датчиков недостаточно.

От исследователей:

«Потоки данных с датчиков предоставляют ценную информацию о действиях и контексте для последующих приложений, хотя интеграция дополнительной информации может быть сложной. Мы показываем, что большие языковые модели (LLM) могут использоваться для позднего слияния для классификации действий на основе временных рядов аудио и движения. Мы подобрали подмножество данных для разнообразного распознавания действий в различных контекстах (например, бытовые действия, спорт) из набора данных Ego4D. Оцененные LLM достигли F1-оценок классификации с нулевым и одним выстрелом по 12 классам значительно выше случайных, без обучения, специфичного для задачи. Классификация с нулевым выстрелом с помощью слияния на основе LLM из модально-специфичных моделей может обеспечить мультимодальные временные приложения, где имеется ограниченное количество выровненных обучающих данных для обучения общего пространства вложений. Кроме того, слияние на основе LLM может обеспечить развертывание модели без необходимости дополнительной памяти и вычислений для целевых мультимодальных моделей, специфичных для приложения.»

Другими словами, LLM довольно хорошо определяют, что делает пользователь, на основе основных сигналов аудио и движения, даже если они не были специально обучены для этого. Более того, при наличии всего одного примера их точность еще больше повышается.

Важно отметить, что в этом исследовании LLM не получала фактическую аудиозапись, а скорее короткие текстовые описания, сгенерированные аудиомоделями и моделью движения на основе IMU (которая отслеживает движение с помощью данных акселерометра и гироскопа), как показано ниже:

Погружение чуть глубже

В статье исследователи объясняют, что они использовали Ego4D — огромный набор данных, снятый с первого лица. Данные содержат тысячи часов реальных сред и ситуаций, от бытовых задач до занятий спортом на открытом воздухе.

Из исследования:

«Мы подобрали набор данных повседневных действий из набора данных Ego4D, ища действия из повседневной жизни в предоставленных описаниях. Подобраный набор данных включает 20-секундные выборки двенадцати высокоуровневых действий: уборка пылесосом, приготовление пищи, стирка, прием пищи, игра в баскетбол, игра в футбол, игры с домашними животными, чтение книги, использование компьютера, мытье посуды, просмотр телевизора, тренировка/поднятие тяжестей. Эти действия были выбраны для охвата ряда бытовых и фитнес-задач, а также на основе их распространенности в большем наборе данных.»

Исследователи прогнали аудио- и видеоданные через меньшие модели, которые генерировали текстовые описания и предсказания классов, а затем передали эти выходные данные различным LLM (Gemini-2.5-pro и Qwen-32B), чтобы увидеть, насколько хорошо они смогут определить действие.

Затем Apple сравнила производительность этих моделей в двух разных ситуациях: в одной, когда им был предоставлен список из 12 возможных действий для выбора (закрытый набор), и в другой, когда им не были предоставлены никакие варианты (открытый набор).

Для каждого теста им были предоставлены различные комбинации аудиоописаний, аудиометок, данных прогнозирования активности IMU и дополнительного контекста, и вот как они справились:

В итоге исследователи отмечают, что результаты этого исследования дают интересное представление о том, как комбинирование нескольких моделей может принести пользу данным о действиях и здоровье, особенно в случаях, когда одних только сырых данных датчиков недостаточно для предоставления четкой картины активности пользователя.

Что, возможно, еще важнее, Apple опубликовала дополнительные материалы вместе с исследованием, включая идентификаторы сегментов Ego4D, временные метки, запросы и примеры с одним выстрелом, использованные в экспериментах, чтобы помочь исследователям, заинтересованным в воспроизведении результатов.

Аксессуары со скидками на Amazon