В преддверии WWDC исследователи Apple оспаривают заявления о способности ИИ к рассуждениям

В то время как Apple отстает от других в плане запущенных функций ИИ, ее исследователи продолжают работать на переднем крае существующих технологий.

В новой статье они ставят под сомнение заявления о том, что некоторые из последних моделей ИИ способны к пошаговому рассуждению. Apple утверждает, что ее тесты показывают, что это просто не так…

Хотя признается, что у традиционных генеративных моделей ИИ, также известных как большие языковые модели (LLM), нет способности к рассуждению, некоторые компании, занимающиеся ИИ, заявляют, что новое поколение моделей может это делать. Их называют большими моделями рассуждений (LRM).

Эти модели появились в результате попыток заставить LLM «показывать свою работу» – то есть излагать отдельные шаги, предпринятые для достижения их выводов. Идея заключается в том, что если ИИ может быть вынужден развивать цепочку рассуждений и принимать решения шаг за шагом, это остановит их от полного выдумывания или ухода в отрыв на каком-то этапе их утверждений.

Этот подход вызывает большие надежды, но новая исследовательская работа Apple называет это «иллюзией мышления». Авторы утверждают, что тестирование ряда LRM показывает, что их «рассуждения» быстро рушатся даже при относительно простых логических задачах, которые легко решаются алгоритмически, таких как головоломка «Ханойская башня».

«Ханойская башня» — это головоломка, состоящая из трех стержней и n дисков разного размера, уложенных на первый стержень в порядке размера (самый большой внизу). Цель состоит в том, чтобы перенести все диски с первого стержня на третий. Допустимые ходы включают перемещение только одного диска за раз, взятие только верхнего диска со стержня и
никогда не размещение большего диска поверх меньшего.

Вы можете создавать более простые или более сложные версии игры, изменяя количество дисков.

Исследователи обнаружили, что LRM фактически *хуже* справляются с простейшими версиями головоломки, чем LLM, немного, но не значительно лучше справляются при добавлении большего количества дисков, а затем полностью отказывают при наличии более восьми дисков.

Простые задачи (N=1-3) показывают снижение точности на ранних этапах со временем (переосмысление), умеренные задачи (N=4-7) демонстрируют небольшое повышение точности при продолжении рассуждений, а сложные задачи (N≥8) показывают стабильно почти нулевую точность, что указывает на полный отказ рассуждений, означающий, что модель не генерирует никаких правильных решений в процессе мышления.

Фактически, они продемонстрировали, что LRM терпят неудачу, даже когда *вы даете им алгоритм, необходимый для ее решения!* По их словам, эти выводы ставят под сомнение заявления о последних моделях ИИ.

Эти выводы бросают вызов общепринятым представлениям о возможностях LRM… Наши результаты выявляют фундаментальные ограничения существующих моделей: несмотря на сложные механизмы саморефлексии, эти модели не способны развивать обобщаемые способности к рассуждению за пределами определенных порогов сложности.

Профессор психологии и нейронаук Университета Нью-Йорка в отставке Гэри Маркус, который давно утверждает, что LRM не способны к рассуждению, заявил, что это показывает необходимость выйти за рамки надежды на то, что создание все более мощных LLM в конечном итоге приведет к появлению интеллекта.

Любой, кто думает, что LLM являются прямым путем к AGI, способному кардинально изменить общество к лучшему, обманывает себя. Это не означает, что область нейронных сетей мертва, или что глубокое обучение мертво. LLM — это лишь одна из форм глубокого обучения, и, возможно, другие, особенно те, которые лучше работают с символами, в конечном итоге будут процветать. Время покажет. Но у этого конкретного подхода есть ограничения, которые становятся все более очевидными.

Рекомендуемые аксессуары

Фото: BoliviaInteligente на Unsplash