ИИ-чат-боты не заслуживают доверия, доказывает исследование, но Apple сделала хороший выбор

Если есть один совет, который стоит повторить относительно ИИ-чат-ботов, то это: «Не используйте их для поиска фактической информации – им абсолютно нельзя доверять в плане правильности».

Новое исследование продемонстрировало масштаб проблемы, но показало, что Apple сделала хороший выбор, заключив партнерство с ChatGPT от OpenAI для ответов на запросы, с которыми Siri не справляется…

Существует две хорошо известные проблемы при попытке использовать большие языковые модели, такие как ChatGPT, Gemini и Grok, в качестве замены поисковых систем:

  • Они очень часто ошибаются
  • Они очень часто очень уверены в своей неверной информации

Исследование, на которое ссылается Columbia Journalism Review, показало, что даже когда вы задаете чат-боту точную цитату из журналистской статьи и просите больше деталей, большинство из них в большинстве случаев ошибаются.

Центр журналистики цифровых технологий провел тестирование восьми ИИ-чат-ботов, которые утверждают, что осуществляют поиск в интернете в режиме реального времени для получения фактов:

  • ChatGPT
  • Perplexity
  • Perplexity Pro
  • DeepSeek
  • Microsoft Copilot
  • Grok-2
  • Grok-3
  • Gemini

Простая задача, поставленная чат-ботам

Исследователи поставили перед каждой из систем цитату из статьи и попросили выполнить простую задачу: найти эту статью в интернете и предоставить ссылку на нее, вместе с заголовком, оригинальным издателем и датой публикации.

Чтобы гарантировать выполнимость задачи, авторы исследования намеренно выбрали отрывки, которые легко найти в Google, с первоисточником в первых трех результатах.

Чат-боты оценивались по тому, были ли они полностью правильными, правильными, но с пропущенной частью запрашиваемой информации, частично неправильными, полностью неправильными или не смогли ответить.

Они также отмечали, насколько уверенно чат-боты представляли свои результаты. Например, представляли ли они свои ответы как факт, или использовали квалифицирующие фразы вроде «похоже» или включали признание в том, что не смогли найти точное соответствие цитате?

Результаты были неутешительными

Во-первых, большинство чат-ботов были частично или полностью неверными в большинстве случаев!

В среднем, ИИ-системы были правильными менее чем в 40% случаев. Самым точным был Perplexity – 63%, а самым худшим – Grok-3 от X – всего 6%.

Другие ключевые выводы:

  • Чат-боты, как правило, плохо отказывались отвечать на вопросы, на которые не могли дать точный ответ, вместо этого предлагая неверные или спекулятивные ответы. 
  • Премиум-чат-боты давали более уверенно неверные ответы, чем их бесплатные аналоги.
  • Несколько чат-ботов, похоже, игнорировали настройки протокола исключения роботов.
  • Инструменты генеративного поиска подделывали ссылки и цитировали синдицированные и скопированные версии статей. 
  • Лицензионные соглашения с новостными источниками не гарантировали точного цитирования в ответах чат-ботов.

Но Apple сделала хороший выбор

Хотя Perplexity показал лучший результат, это, похоже, связано с тем, что он «жульничает». Веб-издатели могут использовать файл robots.txt на своих сайтах, чтобы сообщить ИИ-чат-ботам, следует ли им получать доступ к сайту. National Geographic – это издатель, который запрещает им искать на своем сайте, и тем не менее, в отчете говорится, что Perplexity правильно нашел все 10 цитат, несмотря на то, что статьи были доступны по платной подписке, и у компании не было лицензионного соглашения.

Среди остальных ChatGPT показал лучшие результаты – или, точнее, наименее плохие.

Тем не менее, исследование, безусловно, демонстрирует то, что мы уже знали: используйте чат-боты для вдохновения и идей, но никогда для получения ответов на фактические вопросы.

Рекомендуемые аксессуары

Изображение: Apple