Meta обвиняется в обучении своего ИИ с использованием пиратского контента с торрентов

Новый день, новая полемика вокруг искусственного интеллекта. На этот раз Meta обвиняется в использовании пиратского контента с торрентов для обучения своей большой языковой модели (LLM) Llama, которая лежит в основе Meta AI. Это дело стало одним из первых исков о нарушении авторских прав, поданных против технологической компании за обучение ИИ.

Документы показывают, что Meta AI обучался с использованием пиратского контента

Как сообщает Wired, в 2023 году против Meta был подан иск за предполагаемое обучение Llama, LLM компании, с использованием пиратского контента. Дело стало известно как «Kadrey et al. v. Meta Platforms» и было подано писателями Ричардом Кадреем и Кристофером Голденом, которые утверждали, что Meta использовала материалы, защищенные авторским правом, без разрешения.

До сих пор Meta предоставляла суду документы с отредактированной информацией, но судья Винс Чабрия из Окружного суда США Северного округа Калифорнии постановил, что оригинальные документы должны быть опубликованы — и это произошло.

Документы раскрывают беседы между сотрудниками Meta об Meta AI и Llama. В одной из бесед инженер говорит, что «торрент с корпоративного ноутбука [принадлежащего Meta] неверен», что подтверждает использование компанией пиратского контента для обучения своего ИИ. Другая беседа предполагает, что «MZ» (Марк Цукерберг) санкционировал использование пиратских материалов.

Доказательства свидетельствуют о том, что Meta использовала контент из LibGen, огромной библиотеки пиратских книг, журналов и научных статей. LibGen был создан в России в 2008 году и с тех пор подвергся множеству исков о нарушении авторских прав, хотя никто не знает, кто на самом деле управляет «пиратским хабом». По сообщениям, Meta также использовала контент из других «теневых библиотек» для обучения ИИ.

Компания утверждает, что использовала общедоступные материалы в рамках правовой доктрины «добросовестного использования» (fair use), которая разрешает использование материалов, защищенных авторским правом, без разрешения при определенных обстоятельствах, которые анализируются в каждом конкретном случае. Meta также заявляет, что она просто «использует текст для статистического моделирования языка и генерации оригинального выражения».

Что насчет Apple Intelligence?

Most iPhone owners see little to no value in Apple Intelligence so far | AI icons seen on Mac, iPad, and iPhone

Это не первый случай, когда крупные технологические компании обвиняются в обучении моделей ИИ с использованием материалов, защищенных авторским правом. В прошлом году расследование показало, что модель OpenELM, созданная Apple, включала субтитры из более чем 170 000 видео на YouTube.

Хотя сначала это заставило людей поверить, что Apple использует материалы, защищенные авторским правом, для обучения Apple Intelligence, компания позже объяснила, что OpenELM — это модель с открытым исходным кодом, созданная для исследовательских целей, и что ее база данных не используется для работы Apple Intelligence.

По данным Apple, ее ИИ-функции, доступные в iOS и macOS, обучаются «на лицензированных данных, включая данные, отобранные для улучшения конкретных функций, а также общедоступные данные, собранные нашим веб-сканером».

Стоит отметить, что многие крупные издатели, такие как *The New York Times* и *The Atlantic*, решили не делиться своим контентом для обучения Apple Intelligence.