ИИ-чат-боты не заслуживают доверия, доказывает исследование, но Apple сделала хороший выбор

Ben Lovejoy | Вторник, 11 марта, 2025, 13:29.

Ben Lovejoy | 11 марта 2025 г. — 4:16 PT

AI chatbots can't be trusted, proves study, but Apple made a good choice | Siri developer graphic

Если есть один совет, который стоит повторить относительно ИИ-чат-ботов, то это: «Не используйте их для поиска фактической информации – им абсолютно нельзя доверять в плане правильности».

Новое исследование продемонстрировало масштаб проблемы, но показало, что Apple сделала хороший выбор, заключив партнерство с ChatGPT от OpenAI для ответов на запросы, с которыми Siri не справляется…

Существует две хорошо известные проблемы при попытке использовать большие языковые модели, такие как ChatGPT, Gemini и Grok, в качестве замены поисковых систем:

Они очень часто ошибаются
Они очень часто очень уверены в своей неверной информации

Исследование, на которое ссылается Columbia Journalism Review, показало, что даже когда вы задаете чат-боту точную цитату из журналистской статьи и просите больше деталей, большинство из них в большинстве случаев ошибаются.

Центр журналистики цифровых технологий провел тестирование восьми ИИ-чат-ботов, которые утверждают, что осуществляют поиск в интернете в режиме реального времени для получения фактов:

ChatGPT
Perplexity
Perplexity Pro
DeepSeek
Microsoft Copilot
Grok-2
Grok-3
Gemini

Простая задача, поставленная чат-ботам

Исследователи поставили перед каждой из систем цитату из статьи и попросили выполнить простую задачу: найти эту статью в интернете и предоставить ссылку на нее, вместе с заголовком, оригинальным издателем и датой публикации.

Чтобы гарантировать выполнимость задачи, авторы исследования намеренно выбрали отрывки, которые легко найти в Google, с первоисточником в первых трех результатах.

Чат-боты оценивались по тому, были ли они полностью правильными, правильными, но с пропущенной частью запрашиваемой информации, частично неправильными, полностью неправильными или не смогли ответить.

Они также отмечали, насколько уверенно чат-боты представляли свои результаты. Например, представляли ли они свои ответы как факт, или использовали квалифицирующие фразы вроде «похоже» или включали признание в том, что не смогли найти точное соответствие цитате?

Результаты были неутешительными

Во-первых, большинство чат-ботов были частично или полностью неверными в большинстве случаев!

В среднем, ИИ-системы были правильными менее чем в 40% случаев. Самым точным был Perplexity – 63%, а самым худшим – Grok-3 от X – всего 6%.

Другие ключевые выводы:

Чат-боты, как правило, плохо отказывались отвечать на вопросы, на которые не могли дать точный ответ, вместо этого предлагая неверные или спекулятивные ответы.
Премиум-чат-боты давали более уверенно неверные ответы, чем их бесплатные аналоги.
Несколько чат-ботов, похоже, игнорировали настройки протокола исключения роботов.
Инструменты генеративного поиска подделывали ссылки и цитировали синдицированные и скопированные версии статей.
Лицензионные соглашения с новостными источниками не гарантировали точного цитирования в ответах чат-ботов.

Но Apple сделала хороший выбор

Хотя Perplexity показал лучший результат, это, похоже, связано с тем, что он «жульничает». Веб-издатели могут использовать файл robots.txt на своих сайтах, чтобы сообщить ИИ-чат-ботам, следует ли им получать доступ к сайту. National Geographic – это издатель, который запрещает им искать на своем сайте, и тем не менее, в отчете говорится, что Perplexity правильно нашел все 10 цитат, несмотря на то, что статьи были доступны по платной подписке, и у компании не было лицензионного соглашения.

Среди остальных ChatGPT показал лучшие результаты – или, точнее, наименее плохие.

Тем не менее, исследование, безусловно, демонстрирует то, что мы уже знали: используйте чат-боты для вдохновения и идей, но никогда для получения ответов на фактические вопросы.

ИИ-чат-боты не заслуживают доверия, доказывает исследование, но Apple сделала хороший выбор

Простая задача, поставленная чат-ботам

Результаты были неутешительными

Но Apple сделала хороший выбор

Рекомендуемые аксессуары