Заявление Цукерберга об ИИ вызывает опасения по поводу конфиденциальности и токсичности

Meta Генеральный директор Марк Цукерберг сделал объявление об ИИ, вызвавшее серьезные опасения, после того как он заявил, что у компании больше пользовательских данных, чем использовалось для обучения ChatGPT — и скоро она будет использовать их для обучения своих собственных систем ИИ.

План компании использовать посты и комментарии из Facebook и Instagram для обучения конкурирующего чат-бота вызывает обеспокоенность как по поводу конфиденциальности, так и по поводу токсичности…

Цукерберг объявил о планах компании после публикации последнего финансового отчета, как сообщает Bloomberg.

Для многих людей Facebook — это интернет, и число его пользователей продолжает расти, согласно последним финансовым результатам Meta Platforms Inc. Но Марк Цукерберг не просто отмечает этот продолжающийся рост. Он хочет использовать его, используя данные из Facebook и Instagram для создания мощного, универсального искусственного интеллекта […].

[Цукерберг сказал] «Следующая ключевая часть нашего плана — обучение на уникальных данных и циклах обратной связи в наших продуктах… В Facebook и Instagram есть сотни миллиардов общедоступных изображений и десятки миллиардов общедоступных видео, которые, по нашим оценкам, больше, чем набор данных Common Crawl, и люди делятся большим количеством общедоступных текстовых сообщений в комментариях по всему нашим сервисам.»

Common Crawl — это огромный архив из 250 миллиардов веб-страниц, представляющий собой основную часть текста, использованного для обучения ChatGPT. Используя еще больший набор данных, Meta может получить возможность создать более умный чат-бот.

Как отмечает Bloomberg, преимущество Meta заключается не только в огромном объеме данных, но и в том, что значительная их часть является интерактивной.

Накопленные им данные особенно ценны, поскольку большая их часть поступает из разделов комментариев. Любой текст, представляющий собой человеческий диалог, критически важен для обучения так называемых разговорных агентов, именно поэтому OpenAI активно использовал интернет-форум Reddit Inc. для создания своего популярного чат-бота.

Однако в статье также указываются два больших красных флажка. Во-первых, Meta будет фактически обучать свой ИИ на, возможно, весьма личных сообщениях и разговорах между друзьями в комментариях Facebook. Это вызывает серьезные опасения по поводу конфиденциальности.

Во-вторых, любой, кто когда-либо читал раздел комментариев где-либо в Интернете, знает, что процент токсичного контента высок. Пока вдумчивые пользователи обсуждают проблемы, недостатка в комментаторах, прибегающих к личным нападкам и грубым оскорблениям, нет — и тревожная доля этого контента является расистской и сексистской.

Это то, что любая система обучения чат-ботов должна фильтровать — и Apple, вероятно, более осторожна, чем кто-либо другой, в своей собственной работе над разработкой чат-ботов, что способствовало очень позднему перезапуску Siri — но здесь ситуация может быть особенно плохой.

Часть контента в Facebook, который помечается как токсичный, больше не просматривается человеком и остается на сайте. Хуже того: когда Цукерберг сказал, что данные Meta больше, чем у Common Crawl, он, вероятно, включил исторический архив компании, который будет включать весь гиперболизированный политический контент и фейковые новости, которые были на сайте до того, как Цукерберг приложил усилия для их очистки.

И это компания, которая еще несколько дней назад заявила, что видео с фальшивым изображением президента Байдена должно оставаться на платформе, потому что оно было отредактировано человеком, а не системой ИИ, так что ее стандарты и сегодня не особенно высоки.

Фото: Мария Шалабаева на Unsplash