
За последние шесть лет Apple Watch предоставили множество преимуществ для здоровья, включая мониторинг сердечного ритма/ЭКГ, определение падений, измерение уровня кислорода в крови, отслеживание физической активности, и они стали шире использоваться в медицинских исследованиях. Однако исследователи из Гарвардского университета и Мичиганского университета выразили обеспокоенность по поводу надежности Apple Watch для исследований из-за того, что алгоритмы носимых устройств создают «черные ящики».
Как сообщает The Verge, JP Onnela, доцент кафедры биостатистики, подробно описал потенциальные проблемы использования Apple Watch в исследовательских проектах. В частности, он изучал данные вариабельности сердечного ритма, собираемые Apple Watch, и обнаружил их непоследовательность, предполагая, что это может повлиять и на другие исследования.
Проблема заключается в том, как Apple со временем обновляет алгоритмы своих носимых устройств, что означает, что «данные за один и тот же период могут меняться без предупреждения».
«Эти алгоритмы — то, что мы называем черными ящиками, они непрозрачны. Так что невозможно узнать, что в них содержится», — сказал The Verge JP Onnela, доцент кафедры биостатистики Школы общественного здравоохранения имени Джоанны и Фрэнка Чана при Гарвардском университете и разработчик платформы данных с открытым исходным кодом Beiwe.
Такие устройства, как Apple Watch, известны тем, что экспортируют информацию только после обработки алгоритмическими фильтрами, что может быть проблематично для «воспроизводимой науки». Именно поэтому Оннела обычно предпочитает исследовательские устройства для исследований, которые выдают необработанные данные, но ему было интересно узнать больше об использовании Apple Watch в предстоящем исследовании и о том, насколько значительными могут быть потенциальные проблемы с данными.
Поэтому они проверили данные сердечного ритма, которые его соавтор Хассан Дауд, научный сотрудник Brigham and Women’s Hospital, экспортировал со своих Apple Watch. Дауд экспортировал свои ежедневные данные вариабельности сердечного ритма дважды: один раз 5 сентября 2020 года, а второй раз 15 апреля 2021 года. Для эксперимента они проанализировали данные, собранные за один и тот же период — с начала декабря 2018 года по сентябрь 2020 года.
Оннела был готов увидеть некоторые различия в одних и тех же данных, экспортированных в два разных момента времени. Их средние значения оказались схожими — 52 против 55, однако дисперсии показали большие расхождения — 1240 против 572, а также те же данные имели относительно низкую линейную корреляцию Пирсона — 0.67.
Оннела подробнее объяснил в своем блоге:
Сразу уточню, эти данные охватывают один и тот же диапазон дат, поэтому они должны быть идентичными. На самом деле, их средние значения очень близки: 52 против 55 для первого и второго экспорта соответственно, но их дисперсии сильно различаются: 1240 против 572. Чтобы получить более глубокое понимание этого, я построил диаграмму рассеяния значений одного временного ряда против другого. Пунктирная линия равенства — это то, где мы хотели бы видеть точки, если бы они были идентичными, как мы надеемся. Вместо этого данные сильно разбросаны, а коэффициент линейной корреляции Пирсона составляет всего 0,67. Это не очень высокая корреляция.

Следует иметь в виду, что это лишь один неофициальный пример данных Apple Watch, и он не был получен в ходе исследовательского проекта, но он все равно вызвал обеспокоенность у Оннелы.
В беседе с The Verge Оннела также привел пример отслеживания веса тела, на который могут влиять меняющиеся алгоритмы. Но, вероятно, все сводится к типу использования:
Для тех, кто просто интересуется отслеживанием своего здоровья, это может быть нормально — различия не будут существенными. Но в исследованиях важна последовательность. «Вот в чем проблема», — говорит он.
Оливия Уолч, исследователь сна из Мичиганского университета, подтвердила важность использования устройств, предоставляющих необработанные данные:
«Это подтверждение, потому что я постоянно говорю о необработанных данных, и приятно иметь конкретный пример, где это действительно важно», — говорит она.
Еще один интересный момент, касающийся надежности данных, заключается в том, что разные участники исследования носят смарт-часы с разным программным обеспечением и алгоритмами.
Постоянно меняющиеся алгоритмы делают использование коммерческих носимых устройств для исследований сна практически невозможным, говорит Уолч. Исследования сна и так дороги. «Будете ли вы способны прикрепить четыре Fitbit к человеку, каждый из которых работает на разной версии программного обеспечения, а затем сравнивать их? Вероятно, нет».
…
Например, кто-то может провести исследование, используя носимое устройство, и прийти к выводу о том, как изменились шаблоны сна людей в зависимости от изменений в их среде. Но этот вывод может быть верным только для конкретной версии программного обеспечения носимого устройства. «Возможно, вы получили бы совершенно другой результат, если бы использовали другую модель», — говорит Уолч.
Однако Уолч отметила, что поиск более общих тенденций на «макроуровне» с помощью таких носимых устройств, как Apple Watch, все еще может быть полезен:
«Если вас волнуют вещи такого макроуровня, тогда вы можете принять решение продолжать использовать устройство», — говорит Уолч. Но если конкретное значение вариабельности сердечного ритма, рассчитанное за каждый день, важно для исследования, то полагаться на Apple Watch может быть рискованнее, говорит она. «Это должно заставить людей задуматься о использовании определенных носимых устройств, если есть риск, что почва может уйти из-под ног».
Apple не ответила на запрос The Verge о комментарии по этому вопросу.