
Команда Apple Research опубликовала довольно интересное исследование, в котором изучалось, могут ли модели ИИ оценивать частоту сердечных сокращений по записям стетоскопа, даже если они не были специально обучены для этой цели. Короткий ответ: да. И это отличная новость. Вот почему.
В двух словах, команда взяла шесть популярных базовых моделей, обученных на аудио или речи, и протестировала, насколько хорошо их внутренние аудиопредставления могут быть использованы для оценки частоты сердечных сокращений по записям сердечных звуков, или фонокардиограммам.

Дело в том, что, хотя эти модели не были разработаны для медицинских данных, результаты оказались на удивление солидными. Большинство моделей показали такие же хорошие результаты, как и старые методы, основанные на аудиопризнаках, созданных вручную, — это вручную разработанные способы представления звука, которые давно используются в традиционных моделях машинного обучения.
Но самая интересная часть? Собственная внутренняя модель Apple, версия CLAP (Contrastive Language-Audio Pretraining), обученная внутри на 3 миллионах аудиообразцов, превзошла базовую и продемонстрировала лучшие общие результаты в различных сравнениях моделей.
Как прошел тест?
Модели оценивались с использованием общедоступного набора данных, содержащего более 20 часов реальных сердечных звуков из больниц, аннотированных экспертами (что является ключом к хорошим исследованиям и производительности ИИ).
Для обучения моделей Apple разбила записи на короткие 5-секундные клипы, двигаясь вперед на одну секунду. Это составило около 23 000 фрагментов сердечных звуков, на которых Apple обучила нейронную сеть классифицировать частоту сердечных сокращений в ударах в минуту.

Интересно, что некоторые результаты пошли против типичных предположений ИИ: более крупные модели не всегда работали лучше. Если говорить более технически, более глубокие слои в этих моделях часто кодировали менее полезную кардиореспираторную информацию, вероятно, потому, что они были оптимизированы для языка. Поверхностные или промежуточные представления, как правило, работали лучше.
Это одно из ключевых выводов исследования. Теперь Apple знает, где искать внутри этих моделей и какие слои использовать, чтобы извлечь наиболее релевантные медицинские сигналы, если (лучше — когда) она решит внедрить такой анализ в свои устройства.
Ключевые выводы
Одним из ключевых выводов исследования является то, что сочетание старомодной обработки сигналов с ИИ нового поколения приводит к более надежной оценке частоты сердечных сокращений. Это означает, что в случаях, когда один подход испытывал трудности, другой часто заполнял пробелы. По сути, эти два метода улавливают разные части сигнала.

Заглядывая в будущее, исследователи заявляют, что планируют продолжать совершенствовать модели для медицинских приложений, создавать более легкие версии, которые могли бы работать на маломощных устройствах, и исследовать другие звуки тела, к которым стоит прислушаться. Или, по их собственным словам:
«В будущем мы планируем: (i) изучить комбинирование акустических признаков с FM-представлениями, используя конкатенацию признаков перед последующей моделью или через методы позднего слияния внутри модели, для повышения производительности и исследовать, могут ли такие методы улавливать дополнительную информацию и быть более устойчивыми к индивидуальным особенностям; (ii) исследовать доводку FM-моделей для целевых доменов, чтобы уменьшить несоответствие доменов и, следовательно, изучить, приводит ли такая адаптация к улучшению производительности, лучшему преодолению проблем в оценке ЧСС и улавливанию сложных патологических характеристик; (iii) оценить их применимость к другим последующим задачам и физиологическим параметрам, включая патологические состояния; (iv) обогатить и адаптировать больше клинически значимых данных; (v) сравнить их с другими биоакустическими базовыми моделями, такими как HeAR [30]; и (vi) изучить стратегии упрощения моделей, такие как обрезка, дистилляция и дизайн легковесных энкодеров, для создания развертываемых решений с более низкой вычислительной стоимостью при сохранении производительности.»
Исследование, очевидно, не делает никаких клинических заявлений или обещаний продуктов. Тем не менее, потенциал очевиден, когда речь идет о том, как Apple может встраивать эти модели в iPhone, Apple Watch и, особенно, в AirPods, которые полагаются на микрофоны в ушах для активного шумоподавления. Если вы когда-нибудь слышали собственный сердечный ритм в ушах, когда носили AirPods, вы понимаете, о чем я говорю.
Полный документ можно прочитать на arXiv.