Многие крупнейшие веб-сайты отказались от обучения Apple Intelligence

Генеративные системы ИИ обучаются путем просмотра веб-сайтов для сбора контента. Apple позволяет издателям отказаться от сбора данных, и новый отчет утверждает, что многие крупнейшие веб-сайты специально отказались от обучения Apple Intelligence.

К ним относятся Facebook и Instagram, а также многие известные новостные и медиа-сайты, такие как The New York Times и The Atlantic

Обучение ИИ от Apple

Большие языковые модели, такие как ChatGPT, обучаются путем предоставления доступа к миллионам слов исходного материала, от новостных статей до комментариев пользователей.

В случае с Apple компания уже много лет использует Applebot для обучения Siri и предоставления предложений Spotlight. Совсем недавно компания также использовала Applebot для обучения Apple Intelligence.

Эта практика является спорной, поскольку ИИ фактически использует материалы, защищенные авторским правом, для создания своих собственных версий. Для более нишевых тем, где исходного материала мало, они даже были замечены в пересказе целых абзацев почти без изменений.

Но Apple делает это этично, позволяя издателям отказаться от участия и отфильтровывая личные данные (хотя она была поймана одним сторонним источником).

Мы обучаем наши базовые модели на лицензированных данных, включая данные, отобранные для улучшения конкретных функций, а также общедоступные данные, собранные нашим веб-краулером AppleBot. Веб-издатели имеют возможность отказаться от использования их веб-контента для обучения Apple Intelligence с помощью контроля использования данных […]

Мы применяем фильтры для удаления общедоступной в Интернете личной информации, такой как номера социального страхования и кредитных карт.

Apple использует тег Applebot-Extended, чтобы позволить сайтам отказываться от обучения ИИ, но при этом разрешать индексацию для поиска – это означает, что их материалы по-прежнему могут быть включены в поиск Spotlight и Siri.

Многие крупные веб-издатели отказываются

Поскольку отказ осуществляется с помощью общедоступного файла robots.txt, легко увидеть, какие сайты это сделали. Wired проверил ряд крупнейших новостных и социальных медиа-сайтов.

WIRED может подтвердить, что Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, сеть USA Today и материнская компания WIRED, Condé Nast, входят в число многих организаций, решивших исключить свои данные из процесса обучения ИИ от Apple […]

В отдельном анализе, проведенном на этой неделе, журналист данных Бен Уэлш обнаружил, что чуть более четверти новостных веб-сайтов, которые он опросил (294 из 1167 в основном англоязычных изданий, базирующихся в США), блокируют Applebot-Extended.

Applebot-Extended – это относительно новый тег, поэтому вполне вероятно, что по мере повышения осведомленности больше веб-сайтов также откажутся от участия.

Деньги, конечно, один из факторов

Считается, что Apple заключила сделки с некоторыми медиа-компаниями, выплачивая им гонорар в обмен на право использовать их контент для обучения. Скорее всего, это мотивация как минимум для некоторых сайтов, которые в настоящее время блокируют Apple – они ожидают предложения о плате.

«Многие из крупнейших издателей в мире явно занимают стратегический подход, — говорит основатель Originality AI Джон Гиллхэм. — Я думаю, в некоторых случаях это включает в себя бизнес-стратегию, например, удержание данных до тех пор, пока не будет заключено партнерское соглашение».

iOS 18.1 beta 3 включает несколько новых функций Apple Intelligence, в том числе «Очистка фото» и больше сводок уведомлений.

Фото: Келли МакКлинток на Unsplash