
Если есть один совет, который стоит повторить относительно ИИ-чат-ботов, то это: «Не используйте их для поиска фактической информации – им абсолютно нельзя доверять в плане правильности».
Новое исследование продемонстрировало масштаб проблемы, но показало, что Apple сделала хороший выбор, заключив партнерство с ChatGPT от OpenAI для ответов на запросы, с которыми Siri не справляется…
Существует две хорошо известные проблемы при попытке использовать большие языковые модели, такие как ChatGPT, Gemini и Grok, в качестве замены поисковых систем:
- Они очень часто ошибаются
- Они очень часто очень уверены в своей неверной информации
Исследование, на которое ссылается Columbia Journalism Review, показало, что даже когда вы задаете чат-боту точную цитату из журналистской статьи и просите больше деталей, большинство из них в большинстве случаев ошибаются.
Центр журналистики цифровых технологий провел тестирование восьми ИИ-чат-ботов, которые утверждают, что осуществляют поиск в интернете в режиме реального времени для получения фактов:
- ChatGPT
- Perplexity
- Perplexity Pro
- DeepSeek
- Microsoft Copilot
- Grok-2
- Grok-3
- Gemini
Простая задача, поставленная чат-ботам
Исследователи поставили перед каждой из систем цитату из статьи и попросили выполнить простую задачу: найти эту статью в интернете и предоставить ссылку на нее, вместе с заголовком, оригинальным издателем и датой публикации.
Чтобы гарантировать выполнимость задачи, авторы исследования намеренно выбрали отрывки, которые легко найти в Google, с первоисточником в первых трех результатах.
Чат-боты оценивались по тому, были ли они полностью правильными, правильными, но с пропущенной частью запрашиваемой информации, частично неправильными, полностью неправильными или не смогли ответить.
Они также отмечали, насколько уверенно чат-боты представляли свои результаты. Например, представляли ли они свои ответы как факт, или использовали квалифицирующие фразы вроде «похоже» или включали признание в том, что не смогли найти точное соответствие цитате?
Результаты были неутешительными
Во-первых, большинство чат-ботов были частично или полностью неверными в большинстве случаев!

В среднем, ИИ-системы были правильными менее чем в 40% случаев. Самым точным был Perplexity – 63%, а самым худшим – Grok-3 от X – всего 6%.
Другие ключевые выводы:
- Чат-боты, как правило, плохо отказывались отвечать на вопросы, на которые не могли дать точный ответ, вместо этого предлагая неверные или спекулятивные ответы.
- Премиум-чат-боты давали более уверенно неверные ответы, чем их бесплатные аналоги.
- Несколько чат-ботов, похоже, игнорировали настройки протокола исключения роботов.
- Инструменты генеративного поиска подделывали ссылки и цитировали синдицированные и скопированные версии статей.
- Лицензионные соглашения с новостными источниками не гарантировали точного цитирования в ответах чат-ботов.
Но Apple сделала хороший выбор
Хотя Perplexity показал лучший результат, это, похоже, связано с тем, что он «жульничает». Веб-издатели могут использовать файл robots.txt на своих сайтах, чтобы сообщить ИИ-чат-ботам, следует ли им получать доступ к сайту. National Geographic – это издатель, который запрещает им искать на своем сайте, и тем не менее, в отчете говорится, что Perplexity правильно нашел все 10 цитат, несмотря на то, что статьи были доступны по платной подписке, и у компании не было лицензионного соглашения.
Среди остальных ChatGPT показал лучшие результаты – или, точнее, наименее плохие.
Тем не менее, исследование, безусловно, демонстрирует то, что мы уже знали: используйте чат-боты для вдохновения и идей, но никогда для получения ответов на фактические вопросы.
Рекомендуемые аксессуары
- Ультракомпактное зарядное устройство Anker 511 Nano Pro для iPhone
- Чехол Spigen MagFit для iPhone 16e – добавляет поддержку MagSafe
- Зарядное устройство Apple MagSafe мощностью 25 Вт для моделей iPhone 16
- Зарядное устройство Apple мощностью 30 Вт для вышеуказанного
- Плетеная кабеля Anker USB-C на USB-C мощностью 240 Вт
Изображение: Apple