Человек, стоящий за скрейпингом LinkedIn, заявил, что собрал 700 млн профилей «ради развлечения»

В прошлом месяце мы сообщили о скрейпинге LinkedIn, который раскрыл данные 700 миллионов пользователей — около 92% всех пользователей сервиса. Данные включали местоположение, номера телефонов и предполагаемую зарплату.

Человек, стоящий за этим, теперь опознан и заявляет, что сделал это «ради развлечения» — хотя он также продает данные…

Предыстория

Скрейпинг данных — спорная тема. В простейшем виде это означает написание программного обеспечения для посещения веб-страницы, чтения отображаемых данных и добавления их в базу данных.

Чаще всего люди используют API (интерфейсы прикладного программирования), предоставляемые веб-сервисом для законных целей, и используют их для получения больших объемов данных.

Это спорно, потому что, с одной стороны, те, кто занимается скрейпингом, могут утверждать, что они получают доступ только к общедоступным данным — они просто делают это эффективно. Другие утверждают, что они злоупотребляют инструментами, не предназначенными для этой цели, и что через API доступно больше данных, чем видно на веб-сайтах, что затрудняет для пользователей понимание того, какие данные были раскрыты.

Существует даже спор о терминологии. Многие специалисты по безопасности утверждают, что это не нарушение безопасности, если данные доступны для всеобщего доступа. Я бы возразил, что если сервис, такой как LinkedIn, не обнаруживает, что кто-то скрейпит буквально *сотни миллионов* записей, то это массовый провал безопасности.

Скрейпинг LinkedIn ради развлечения — и прибыли

BBC News поговорили с человеком, который взял данные, под именем Том Лайнер.

Как бы вы себя чувствовали, если бы вся ваша информация была каталогизирована хакером и помещена в гигантскую электронную таблицу с миллионами записей, чтобы продать онлайн самому высокооплачиваемому киберпреступнику?

Именно это сделал хакер, назвавший себя Томом Лайнером, в прошлом месяце «ради развлечения», когда он составил базу данных из 700 миллионов пользователей LinkedIn со всего мира, которую он продает примерно за 5000 долларов (3600 фунтов стерлингов; 4200 евро) […]

В случае с господином Лайнером, его последний подвиг был объявлен в 08:57 BST в посте на печально известном хакерском форуме […] «Привет, у меня есть 700 миллионов записей LinkedIn за 2021 год», — написал он. В пост была включена ссылка на образец из миллиона записей и приглашение другим хакерам связаться с ним лично и сделать ему предложения о покупке базы данных.

Лайнер говорит, что он также стоял за скрейпингом 533 миллионов профилей Facebook в апреле (вы можете проверить, были ли ваши данные захвачены).

Том сказал мне, что создал базу данных LinkedIn из 700 миллионов записей, используя «почти ту же самую технику», которую он использовал для создания списка Facebook.

Он сказал: «Это заняло у меня несколько месяцев. Это было очень сложно. Мне пришлось взломать API LinkedIn. Если вы делаете слишком много запросов на получение данных пользователя за один раз, система навсегда вас забанит».

LinkedIn отрицает, что Лайнер использовал их API, но компания по кибербезопасности SIS Intelligence утверждает, что нам нужны дополнительные меры контроля над их использованием.

Генеральный директор Амир Хаджипашич говорит, что детали в этом и других массовых скрейпинговых событиях не соответствуют тому, что большинство людей ожидали бы увидеть в открытом доступе. Он считает, что программы API, которые предоставляют больше информации о пользователях, чем может видеть широкая общественность, должны быть более строго контролируемыми.

«Масштабные утечки, подобные этой, вызывают беспокойство, учитывая детальность, в некоторых случаях, этой информации — такой как географическое положение или частные мобильные и электронные адреса.

«Для большинства людей будет сюрпризом, что столько информации хранится в этих сервисах обогащения API.

Эксперт по безопасности и владелец сайта haveibeenpwned.com Трой Хант говорит, что не считает злоупотребление API нарушением безопасности, но в целом согласен с необходимостью большего контроля.

«Я не не согласен с позицией Facebook и других, но я считаю, что ответ «это не проблема», хотя, возможно, и технически точный, упускает суть того, насколько ценны эти пользовательские данные, и они, возможно, преуменьшают свою роль в создании этих баз данных».

Фото: Бенджамин Леман/Unsplash