
Инженер программного обеспечения Apple недавно сообщил, что Apple расширяет использование дифференциальной приватности для охвата данных о просмотре веб-страниц и состоянии здоровья, поскольку теперь компания использует эту технику для обработки миллионов единиц информации от пользователей устройств ежедневно.
До сих пор дифференциальная приватность оставалась в тени, поэтому мы решили, что сейчас хорошее время, чтобы разобраться, что это такое, как это работает, и спросить, насколько вы комфортно относитесь к более широкому использованию этого подхода Apple…
До разработки этой технологии технологические компании, имеющие доступ к большим объемам данных, сталкивались с фундаментальной дилеммой. Если вы собираете и анализируете эти данные, они могут иметь огромную ценность, помогая вам понять, что делают ваши клиенты и чего они хотят, и, как результат, позволять вам предоставлять лучший сервис. Если вы анализируете данные на уровне отдельных пользователей, вы можете предлагать высоко персонализированные услуги, но потенциально за счет их конфиденциальности.
Именно такой подход выбрала Google, и поэтому она опережает Apple в таких вещах, как определение планов поездок по электронным билетам в электронной почте и проактивное уведомление о времени выезда в аэропорт.
Если же вы решите, что конфиденциальность пользователей важнее, чем извлечение данных, тогда ваши клиенты будут чувствовать себя комфортно, зная, что вы не анализируете все их данные. Однако недостатком могут быть менее интеллектуальные сервисы.
Исторически Apple придерживалась именно такого подхода.
Что такое дифференциальная приватность?
Дифференциальная приватность — это возможное решение этой дилеммы. Это метод сбора и анализа больших объемов данных от людей, но обрабатываемый таким образом, чтобы гарантировать, что ничего нельзя будет связать с каким-либо конкретным человеком. Вы не можете использовать его для предоставления полностью персонализированных услуг, как это делает Google, но вы можете использовать обобщенные сведения для предоставления более качественного обслуживания всем своим клиентам.
WSJ привела пример использования этой техники в опросе о незаконном употреблении наркотиков. Если вы анонимно спросите 100 человек, употребляют ли они марихуану, а также зададите им ряд других вопросов, существует риск, что комбинация ответов может идентифицировать людей.
Например, если вы также спросите этих людей, какого цвета машину они водят, то в этом опросе может быть только один человек, который водит синюю машину. Если кто-то ответил «да» на курение марихуаны и также сказал, что его машина синяя, тогда мы можем узнать, кто это, даже если данные теоретически анонимны.
Реальные примеры, очевидно, будут более сложными — с участием миллионов людей и гораздо большим количеством данных, чем два элемента — но применяется тот же принцип. Например, Netflix использует анонимные идентификаторы для записи наших предпочтений в отношении телевизионных программ и фильмов, но анализ Техасского университета показал, что даже небольшое количество информации о человеке может позволить нам де-анонимизировать данные.
Дифференциальная приватность заключается в добавлении определенного количества математического «шума» к собираемым данным, чтобы вы больше не могли с уверенностью знать что-либо о каком-либо конкретном человеке.
В примере с опросом о наркотиках, вопрос 1 для 90 человек будет заключаться в том, употребляют ли они марихуану. Для остальных 10 человек вопрос 1 будет: «Подбросьте монету и ответьте «Да», если выпадет орел». Затем, если мы увидим, что наш водитель синей машины ответил «Да» на первый вопрос, мы больше не можем утверждать, что он наркоман – он может быть одним из тех, кто участвовал в версии опроса с подбрасыванием монеты.
Фиктивные вопросы должны быть такими, у которых известны частоты ответов (50/50 в случае подбрасывания монеты), и здесь задействована хитрая математика, обеспечивающая точность анализа данных. Но в итоге вы все еще можете, в пределах погрешности, определить, какой процент людей курит травку, не идентифицируя никого из них.
В случае с данными о здоровье Apple будет знать, например, сколько владельцев iPhone имеют определенный индекс массы тела, но не будет знать, кто они.
Насколько вы комфортно относитесь к подходу Apple?
Apple начала использовать дифференциальную приватность с запуском iOS 10. Когда вы соглашаетесь на отправку диагностических данных и данных об использовании, Apple применяет к этим данным дифференциальную приватность.
Этот шаг не обошелся без споров. Мой коллега Грег Барбоса написал статью о том, что Apple неясно объясняет пользователям, как используются данные, а профессор криптографии из Университета Джонса Хопкинса поставил под сомнение, действительно ли безопасен подход Apple.
Проблема, по его словам, заключается в неизбежном компромиссе между точностью собираемых данных и конфиденциальностью отдельных лиц. Иными словами, чем больше математического шума вы вводите для защиты конфиденциальности, тем менее точными становятся ваши данные.
Но все признаки указывают на то, что Apple склоняется к осторожности, твердо занимая сторону конфиденциальности в этом компромиссе. Apple, как утверждается, ищет только «общие закономерности».
Чтобы скрыть личность человека, дифференциальная приватность добавляет математический шум к небольшой выборке шаблонов использования этого человека. По мере того как все больше людей разделяют один и тот же шаблон, начинают проявляться общие закономерности, которые могут информировать и улучшать пользовательский опыт.
До сих пор данные использовались для улучшения таких вещей, как предложения автокоррекции.
В то время как один ученый, не обладающий специальными знаниями о подходе Apple, выразил сомнение, другой, который имел возможность «быстро ознакомиться» с технологией, считает подход компании надежным.
Аарон Рот, доцент кафедры компьютерных наук в Университете Пенсильвании, […] сказал, что это «позиционирует Apple как явного лидера в области конфиденциальности среди технологических компаний сегодня» и что его анализ увиденных фрагментов предполагает, что компания «делает это правильно».
Однако справедливо будет отметить, что компания теперь выходит в более чувствительные области, анализируя привычки просмотра веб-страниц и, в частности, данные о состоянии здоровья. Вероятно, такое использование окажет давление на Apple, чтобы она поделилась более подробной информацией о своем подходе, чем это было до сих пор.
Насколько вы комфортно относитесь к расширению Apple анализа данных с использованием дифференциальной приватности для сбора данных о просмотре веб-страниц и состоянии здоровья? Пожалуйста, примите участие в нашем опросе и поделитесь своими мыслями в комментариях.
Смотрите 9to5Mac на YouTube для получения дополнительных новостей об Apple!