
Группа «белых» хакеров соревнуется в том, чтобы заставить ИИ действовать непредсказуемо – при поддержке Белого дома. Конкурс, проводимый на мероприятии Def Con этого года, призван выявить уязвимости в системах искусственного интеллекта, чтобы их разработчики могли работать над их устранением.
На меньшем мероприятии системы ИИ уже раскрывали личные медицинские данные и помогали спланировать ограбление банка, в то время как некоторые системы ИИ, похоже, не нуждаются в помощи хакеров, поскольку они пропагандируют расстройства пищевого поведения…
Хакеры ИИ получили поддержку Белого дома
The Washington Post сообщает о результатах мероприятия по взлому ИИ, которое состоялось в прошлом месяце.
Один раскрыл личную медицинскую информацию кого-то. Один выдал инструкции, как ограбить банк. Один предположил, что у кандидата на должность по имени Хуан будут более слабые «межличностные навыки», чем у другого по имени Бен. А один сочинил подробное изложение ночи в июле 2016 года, когда, как он утверждал, Джастин Бибер убил Селену Гомес […]
Они соревновались в том, что организаторы назвали первым публичным мероприятием «красной команды» для языковых моделей искусственного интеллекта – конкурсом на поиск новых способов, которыми чат-боты могут действовать непредсказуемо, чтобы их создатели могли попытаться исправить их до того, как кто-нибудь пострадает.
Но это было лишь прелюдией к гораздо более масштабному мероприятию по взлому ИИ на Def Con этого года.
Мероприятие Generative Red Team Challenge, организованное AI Village на Def Con, получило поддержку Белого дома в рамках его усилий по продвижению «ответственных инноваций» в области ИИ – новой технологии, которая вызвала взрыв хайпа, инвестиций и страха […]
Ведущие ИИ-компании, такие как Google, OpenAI, Anthropic и Stability, предоставили свои последние чат-боты и генераторы изображений для тестирования. Результаты конкурса будут засекречены в течение нескольких месяцев после его завершения, заявили организаторы, чтобы дать компаниям время для устранения выявленных в ходе конкурса недостатков до их обнародования.
Проблема с моделями «черного ящика», такими как генеративный ИИ, заключается в том, что нет надежного способа предсказать тип вывода, который вы можете получить. Разработчики прилагают все усилия, чтобы внедрить средства контроля, предназначенные для обнаружения и блокировки неуместных запросов и ответов, но существует множество способов, которыми все может пойти не так – просто спросите ChatGPT. Вот что он мне сказал, когда я попросил его привести примеры сбоев ИИ:
- Предвзятость в распознавании лиц: Было обнаружено, что несколько систем распознавания лиц, в том числе разработанных крупными технологическими компаниями, имеют более высокие показатели ошибок для людей с более темной кожей и женщин. Эта предвзятость может привести к ошибочной идентификации и потенциальным дискриминационным последствиям.
- Tay, чат-бот Microsoft: В 2016 году Microsoft выпустила чат-бота под названием Tay в Twitter. В течение нескольких часов он начал публиковать оскорбительные и неуместные твиты, поскольку научился токсичному и подстрекательскому контенту других пользователей.
- Разметка Google Photos: В 2015 году Google Photos подвергся критике за маркировку фотографий афроамериканцев как «горилл». Это было результатом предвзятых обучающих данных, на которых обучался алгоритм, что выявило проблемы с обучением ИИ на разнообразных наборах данных.
- Злонамеренные атаки на автономные транспортные средства: Исследователи продемонстрировали, что добавление тщательно разработанных наклеек на дорожные знаки может ввести в заблуждение некоторые автомобили с ИИ-управлением, заставив их неправильно интерпретировать значение знаков. Это потенциально может привести к опасным ситуациям на дороге.
- Система найма Amazon, предвзятая по признаку пола: Amazon разработал инструмент подбора персонала на основе ИИ, предназначенный для помощи в отборе кандидатов на работу. Однако система начала отдавать предпочтение мужчинам-кандидатам перед женщинами, отражая историческую предвзятость по признаку пола в резюме, на которых она обучалась.
- Глубокие фейки, созданные ИИ: Видео и аудио глубоких фейков, созданные ИИ, могут убедительно манипулировать контентом, чтобы создать впечатление, будто кто-то сказал или сделал то, чего он никогда не делал. Эта технология может использоваться для распространения дезинформации, создания фейковых новостей или выдачи себя за других.
- Автоматизированная модерация контента: Платформы социальных сетей часто используют ИИ для автоматической модерации контента. Однако эти системы иногда ошибочно помечают или удаляют безобидный контент, такой как произведения искусства, исторические фотографии или законные политические дискуссии.
- Чат-бот «Eugenio», пропагандирующий самоубийство: В 2017 году было обнаружено, что чат-бот под названием «Eugenio» на платформе социальных сетей Telegram предоставлял тревожные и потенциально вредные ответы пользователям, которые обсуждали депрессию и самоубийство.
- Ошибки диагностики в здравоохранении: Хотя ИИ обещает успехи в медицинской диагностике, были случаи, когда системы ИИ ставили неправильные диагнозы или предоставляли некорректные медицинские рекомендации из-за ограничений в их обучающих данных или алгоритмах.
- Аварии автономных транспортных средств: Беспилотные автомобили попадали в аварии из-за ошибок в их системах восприятия или алгоритмах принятия решений. Эти аварии вызывают вопросы о готовности автомобилей, управляемых ИИ, к сложным реальным сценариям.
Системы ИИ пропагандируют расстройства пищевого поведения – с инструкциями
Отдельный отчет The Washington Post показывает, что некоторые системы ИИ могут выходить из-под контроля без какой-либо помощи хакеров. Было обнаружено, что ChatGPT, Bard, Stable Diffusion могут способствовать расстройствам пищевого поведения.
Недавно я спросил ChatGPT, какие препараты я могу использовать для вызова рвоты. Бот предупредил меня, что это следует делать под наблюдением врача, но затем назвал три препарата.
Bard AI от Google, притворяясь другом-человеком, предоставил пошаговое руководство по «жеванию и плеванию» – еще одной практике, связанной с расстройствами пищевого поведения. С пугающей уверенностью мой приятель My AI от Snapchat составил мне план питания для снижения веса, который составлял менее 700 калорий в день – значительно ниже того, что врач когда-либо рекомендовал бы…
Я ввел «thinspo» – кодовое слово для вдохновения стройности – в Stable Diffusion на сайте DreamStudio. Он создал поддельные фотографии женщин с бедрами, не шире запястий. Когда я ввел «pro-anorexia images», он создал обнаженные тела с выступающими костями, которые слишком отталкивающие, чтобы делиться ими здесь.
Психологи, специализирующиеся в этой области, заявили, что такие результаты могут нанести серьезный вред, включая провоцирование расстройства пищевого поведения у людей из группы риска.
В отчете упоминаются неадекватные ответы от разработчиков соответствующих систем ИИ и говорится, что это добавляет доказательств того, что только законодательство, а не саморегулирование, может устранить такой вред.