Система Apple CSAM взломана, но ее легко обезопасить [U]

Обновление: Apple упоминает вторую проверку на сервере, а специализированная компания по компьютерному зрению описала одну из возможностей того, чем это может быть — описано ниже под заголовком «Как может работать вторая проверка».

Ранняя версия системы CSAM от Apple была фактически обманута, заставив пометить невиновное изображение, после того как разработчик реконструировал часть ее работы. Однако Apple утверждает, что у нее есть дополнительные средства защиты от подобных инцидентов в реальном использовании.

Последнее событие произошло после того, как алгоритм NeuralHash был размещен на платформе для разработчиков с открытым исходным кодом GitHub, что позволило любому желающему экспериментировать с ним…

Справочная информация

Все системы CSAM работают путем импорта базы данных известного контента, связанного с сексуальным насилием над детьми, от организаций, таких как Национальный центр пропавших и эксплуатируемых детей (NCMEC). Эта база данных предоставляется в виде хэшей, или цифровых отпечатков, полученных из изображений.

В то время как большинство технологических гигантов сканируют загруженные фотографии в облаке, Apple использует алгоритм NeuralHash на iPhone пользователя для генерации хэшей сохраненных фотографий, а затем сравнивает их с загруженной копией хэшей CSAM.

Вчера один разработчик заявил, что реконструировал алгоритм Apple, разместив код на GitHub — заявление, которое Apple фактически подтвердила.

Система CSAM Apple взломана

В течение нескольких часов после публикации на GitHub исследователи преуспели в использовании алгоритма для создания намеренного ложного срабатывания — два совершенно разных изображения сгенерировали одно и то же значение хэша. Это известно как коллизия.

Коллизии всегда представляют собой риск для таких систем, поскольку хэш, естественно, является сильно упрощенным представлением изображения, но было выражено удивление, что кто-то смог сгенерировать его так быстро.

Созданная здесь коллизия является просто доказательством концепции. Разработчики не имеют доступа к базе данных хэшей CSAM, которая потребовалась бы для создания ложного срабатывания в реальной системе, но это доказывает, что коллизионные атаки в принципе относительно просты.

Apple заявляет, что у нее есть две защиты от этого

Apple фактически подтвердила, что алгоритм лежит в основе ее собственной системы, но сообщила изданию Motherboard, что это не финальная версия. Компания также заявила, что она не предназначалась для секретности.

Apple сообщила Motherboard в электронном письме, что версия, проанализированная пользователями на GitHub, является общей версией, а не финальной версией, которая будет использоваться для обнаружения CSAM в iCloud Photos. Apple заявила, что также сделала алгоритм общедоступным.

«Алгоритм NeuralHash […] включен в код подписанной операционной системы [и] исследователи безопасности могут проверить, что он ведет себя так, как описано», — говорится в одном из документов Apple.

Компания далее заявила, что существуют два дополнительных шага: вторичная (секретная) система сопоставления, работающая на ее серверах, и ручная проверка.

Apple также заявила, что после того, как пользователь достигнет порога в 30 совпадений, второй непубличный алгоритм, работающий на серверах Apple, проверит результаты.

«Этот независимый хэш выбран для отклонения маловероятной возможности того, что пороговое значение совпадений было превышено из-за изображений, не являющихся CSAM, которые были преднамеренно изменены для вызова ложных совпадений NeuralHash с зашифрованной базой данных CSAM на устройстве».

Как может работать вторая проверка

Брэд Дуайер из Roboflow нашел способ легко отличить два изображения, опубликованных в качестве доказательства концепции для коллизионной атаки.

Мне было интересно, как эти изображения выглядят для похожего, но другого экстрактора нейронных признаков, OpenAI CLIP. CLIP работает аналогично NeuralHash; он берет изображение и использует нейронную сеть для создания набора векторов признаков, которые соответствуют содержимому изображения.

Но сеть OpenAI отличается тем, что это универсальная модель, которая может сопоставлять изображения и текст. Это означает, что мы можем использовать ее для извлечения понятной для человека информации об изображениях.

Я прогнал два приведенных выше коллизионных изображения через CLIP, чтобы увидеть, обманул ли он и его. Короткий ответ: нет. Это означает, что Apple сможет применять вторую сеть экстрактора признаков, такую как CLIP, к обнаруженным изображениям CSAM, чтобы определить, являются ли они реальными или поддельными. Создать изображение, которое одновременно обманет обе сети, будет гораздо сложнее.

Человеческая проверка

Наконец, как обсуждалось ранее, проводится проверка изображений человеком для подтверждения того, что они являются CSAM.

Единственный реальный риск, по словам одного исследователя безопасности, заключается в том, что любой, кто захочет досадить Apple, сможет завалить рецензентов ложными срабатываниями.

«Apple на самом деле разработала эту систему так, чтобы хэш-функция не требовала секретности, поскольку единственное, что вы можете сделать с «не-CSAM, который хэшируется как CSAM», — это досадить команде реагирования Apple, отправив ей несколько мусорных изображений, пока они не внедрят фильтр для устранения этих мусорных ложных срабатываний в их конвейере анализа», — сообщил Motherboard Николас Уивер, старший научный сотрудник Международного института компьютерных наук Калифорнийского университета в Беркли, в онлайн-чате.

Вы можете узнать больше о системе CSAM от Apple и вызывающих опасения вопросах в нашем руководстве.

Фото: Alex Chumak/Unsplash