Siri провалил простейший тест на Супербоул, допустив 38 ошибок из 58

Apple commentator John Gruber yesterday described Siri’s current performance as “an unfunny joke,” giving its inability to correctly name the winner of Super Bowl 13 an example, noting that this is a basic query that any US chatbot ought to be able to answer.

Как оказалось, это был не случайный пример: его подсказал его друг Пол Кафасис, который решил протестировать Siri на Супербоулах с 1-го по 60-й включительно – и результаты были неутешительны…

Кафасис поделился результатами в своем блоге.

Ну как справилась Siri? При самой снисходительной оценке Siri правильно назвала победителя только 20 из 58 сыгранных Супербоулов. Это абсолютно удручающие 34% успешных ответов. Если бы Siri была квотербеком, ее бы выгнали из НФЛ.

Siri однажды умудрилась дать правильные ответы четыре раза подряд (Супербоулы IX-XII), но только если засчитывать ей попадания по неправильной причине. Более реалистично, трижды она правильно ответила на три вопроса подряд (Супербоулы V-VII, XXXV-XXVII и LVII-LIX). В худшем случае она выдала поразительные 15 неправильных ответов подряд (Супербоулы XVII-XXXII).

Похоже, Siri — большой фанат «Иглз».

Что самое забавное, она приписала «Филадельфия Иглз» невероятные 33 победы в Супербоуле, которые они не одерживали, вдобавок к той одной, которую они действительно одержали.

Часть «правильный ответ по неправильной причине» относится к тому, что Siri попросили назвать победителя Супербоула X. По неизвестным причинам Siri решила ответить развернутым сообщением о Супербоуле IX, и, по совпадению, победитель в обоих случаях был один и тот же.

Иногда Siri полностью отклонялась от темы и игнорировала вопрос, цитируя несвязанные записи из Википедии.

«Кто выиграл Супербоул 23?»
Билл Беличик владеет рекордом по количеству побед в Супербоуле (восемь) и участий (двенадцать: девять раз в качестве главного тренера, один раз в качестве ассистента главного тренера и дважды в качестве координатора защиты) среди отдельных лиц.

Но, возможно, римские цифры вызывают путаницу, и другие ИИ-системы испытывают такие же трудности? Грубер решил провести несколько выборочных проверок.

Я не проводил всестороннего тестирования Супербоулов с 1-го по 60-й, потому что мне лень, но выборочная проверка нескольких случайных номеров в этом диапазоне показывает, что любой другой агент, который я лично использую для получения ответов на вопросы, отвечает на них всех правильно.

Я пробовал ChatGPT, Kagi, DuckDuckGo и Google. Все четверо справляются даже с arguably trick questions относительно победителей Супербоулов 59 и 60, которые еще не состоялись. Например, на вопрос о победителе Супербоула 59, «Quick Answer» от Kagi начинается так: «Super Bowl 59 запланирован на 9 февраля 2025 года. На данный момент игра еще не состоялась, поэтому победителя нет».

Победители Супербоулов — это не какая-то малоизвестная тема, как, скажем, вопрос «Кто выиграл чемпионат штата Северная Дакота по баскетболу среди юношей в 2004 году?» — вопрос, который я только что выдумал, но на который, на удивление, Kagi ответил правильно для класса A, и ChatGPT ответил правильно для обоих классов A и B, и предоставил ссылку на это видео игры чемпионата класса A на YouTube.

Это удивительно! Я выбрал неприметный штат (без обид для жителей Дакоты, северной или южной), год довольно давно, и вид спорта в старшей школе, в котором я лично играл лучше всего и который мне больше всего дорог. И Kagi, и ChatGPT справились. (Я бы поставил Kagi «отлично», а ChatGPT — «отлично плюс» за название чемпионов обоих классов, и дополнительный балл к «отлично плюс» за ссылки на YouTube.)

Грубер отмечает, что старая Siri — на macOS 15.1.1 — на самом деле справляется лучше. Конечно, она кажется менее способной, поскольку выдавала свой обычный ответ «Вот что я нашел в интернете», но, по крайней мере, она давала ссылки на правильный ответ. Новая Siri этого не делает.

Новая Siri — на базе Apple Intelligence™ с интегрированным ChatGPT — дает совершенно, но правдоподобно неверный ответ, что является худшим способом ошибиться. Она также нестабильна в ошибках — я задал один и тот же вопрос четыре раза и каждый раз получал разный ответ, и все они были неверными. Это полный провал.

Фото: Калеб Вудс на Unsplash