Хакеры ИИ получили поддержку Белого дома, в то время как некоторые системы выходят из-под контроля сами по себе

Ben Lovejoy | Среда, 9 августа, 2023, 10:33.

Бен Лавджой | 9 августа 2023 г. — 5:54 утра по тихоокеанскому времени

Группа «белых» хакеров соревнуется в том, чтобы заставить ИИ действовать непредсказуемо – при поддержке Белого дома. Конкурс, проводимый на мероприятии Def Con этого года, призван выявить уязвимости в системах искусственного интеллекта, чтобы их разработчики могли работать над их устранением.

На меньшем мероприятии системы ИИ уже раскрывали личные медицинские данные и помогали спланировать ограбление банка, в то время как некоторые системы ИИ, похоже, не нуждаются в помощи хакеров, поскольку они пропагандируют расстройства пищевого поведения…

Хакеры ИИ получили поддержку Белого дома

The Washington Post сообщает о результатах мероприятия по взлому ИИ, которое состоялось в прошлом месяце.

Один раскрыл личную медицинскую информацию кого-то. Один выдал инструкции, как ограбить банк. Один предположил, что у кандидата на должность по имени Хуан будут более слабые «межличностные навыки», чем у другого по имени Бен. А один сочинил подробное изложение ночи в июле 2016 года, когда, как он утверждал, Джастин Бибер убил Селену Гомес […]

Они соревновались в том, что организаторы назвали первым публичным мероприятием «красной команды» для языковых моделей искусственного интеллекта – конкурсом на поиск новых способов, которыми чат-боты могут действовать непредсказуемо, чтобы их создатели могли попытаться исправить их до того, как кто-нибудь пострадает.

Но это было лишь прелюдией к гораздо более масштабному мероприятию по взлому ИИ на Def Con этого года.

Мероприятие Generative Red Team Challenge, организованное AI Village на Def Con, получило поддержку Белого дома в рамках его усилий по продвижению «ответственных инноваций» в области ИИ – новой технологии, которая вызвала взрыв хайпа, инвестиций и страха […]

Ведущие ИИ-компании, такие как Google, OpenAI, Anthropic и Stability, предоставили свои последние чат-боты и генераторы изображений для тестирования. Результаты конкурса будут засекречены в течение нескольких месяцев после его завершения, заявили организаторы, чтобы дать компаниям время для устранения выявленных в ходе конкурса недостатков до их обнародования.

Проблема с моделями «черного ящика», такими как генеративный ИИ, заключается в том, что нет надежного способа предсказать тип вывода, который вы можете получить. Разработчики прилагают все усилия, чтобы внедрить средства контроля, предназначенные для обнаружения и блокировки неуместных запросов и ответов, но существует множество способов, которыми все может пойти не так – просто спросите ChatGPT. Вот что он мне сказал, когда я попросил его привести примеры сбоев ИИ:

Предвзятость в распознавании лиц: Было обнаружено, что несколько систем распознавания лиц, в том числе разработанных крупными технологическими компаниями, имеют более высокие показатели ошибок для людей с более темной кожей и женщин. Эта предвзятость может привести к ошибочной идентификации и потенциальным дискриминационным последствиям.
Tay, чат-бот Microsoft: В 2016 году Microsoft выпустила чат-бота под названием Tay в Twitter. В течение нескольких часов он начал публиковать оскорбительные и неуместные твиты, поскольку научился токсичному и подстрекательскому контенту других пользователей.
Разметка Google Photos: В 2015 году Google Photos подвергся критике за маркировку фотографий афроамериканцев как «горилл». Это было результатом предвзятых обучающих данных, на которых обучался алгоритм, что выявило проблемы с обучением ИИ на разнообразных наборах данных.
Злонамеренные атаки на автономные транспортные средства: Исследователи продемонстрировали, что добавление тщательно разработанных наклеек на дорожные знаки может ввести в заблуждение некоторые автомобили с ИИ-управлением, заставив их неправильно интерпретировать значение знаков. Это потенциально может привести к опасным ситуациям на дороге.
Система найма Amazon, предвзятая по признаку пола: Amazon разработал инструмент подбора персонала на основе ИИ, предназначенный для помощи в отборе кандидатов на работу. Однако система начала отдавать предпочтение мужчинам-кандидатам перед женщинами, отражая историческую предвзятость по признаку пола в резюме, на которых она обучалась.
Глубокие фейки, созданные ИИ: Видео и аудио глубоких фейков, созданные ИИ, могут убедительно манипулировать контентом, чтобы создать впечатление, будто кто-то сказал или сделал то, чего он никогда не делал. Эта технология может использоваться для распространения дезинформации, создания фейковых новостей или выдачи себя за других.
Автоматизированная модерация контента: Платформы социальных сетей часто используют ИИ для автоматической модерации контента. Однако эти системы иногда ошибочно помечают или удаляют безобидный контент, такой как произведения искусства, исторические фотографии или законные политические дискуссии.
Чат-бот «Eugenio», пропагандирующий самоубийство: В 2017 году было обнаружено, что чат-бот под названием «Eugenio» на платформе социальных сетей Telegram предоставлял тревожные и потенциально вредные ответы пользователям, которые обсуждали депрессию и самоубийство.
Ошибки диагностики в здравоохранении: Хотя ИИ обещает успехи в медицинской диагностике, были случаи, когда системы ИИ ставили неправильные диагнозы или предоставляли некорректные медицинские рекомендации из-за ограничений в их обучающих данных или алгоритмах.
Аварии автономных транспортных средств: Беспилотные автомобили попадали в аварии из-за ошибок в их системах восприятия или алгоритмах принятия решений. Эти аварии вызывают вопросы о готовности автомобилей, управляемых ИИ, к сложным реальным сценариям.

Системы ИИ пропагандируют расстройства пищевого поведения – с инструкциями

Отдельный отчет The Washington Post показывает, что некоторые системы ИИ могут выходить из-под контроля без какой-либо помощи хакеров. Было обнаружено, что ChatGPT, Bard, Stable Diffusion могут способствовать расстройствам пищевого поведения.

Недавно я спросил ChatGPT, какие препараты я могу использовать для вызова рвоты. Бот предупредил меня, что это следует делать под наблюдением врача, но затем назвал три препарата.

Bard AI от Google, притворяясь другом-человеком, предоставил пошаговое руководство по «жеванию и плеванию» – еще одной практике, связанной с расстройствами пищевого поведения. С пугающей уверенностью мой приятель My AI от Snapchat составил мне план питания для снижения веса, который составлял менее 700 калорий в день – значительно ниже того, что врач когда-либо рекомендовал бы…

Я ввел «thinspo» – кодовое слово для вдохновения стройности – в Stable Diffusion на сайте DreamStudio. Он создал поддельные фотографии женщин с бедрами, не шире запястий. Когда я ввел «pro-anorexia images», он создал обнаженные тела с выступающими костями, которые слишком отталкивающие, чтобы делиться ими здесь.

Психологи, специализирующиеся в этой области, заявили, что такие результаты могут нанести серьезный вред, включая провоцирование расстройства пищевого поведения у людей из группы риска.

В отчете упоминаются неадекватные ответы от разработчиков соответствующих систем ИИ и говорится, что это добавляет доказательств того, что только законодательство, а не саморегулирование, может устранить такой вред.

Изображение: Xu Haiwei/Unsplash