Новое исследование ставит под сомнение выводы Apple о «коллапсе рассуждений» у LLM

Недавняя исследовательская работа Apple «Иллюзия мышления» вызвала бурные обсуждения своим прямолинейным выводом: даже самые передовые модели с большими возможностями рассуждения (LRM) «коллапсируют» при выполнении сложных задач. Однако не все согласны с такой формулировкой.

Сегодня Алекс Лоусен, исследователь из Open Philanthropy, опубликовал подробный ответ, в котором утверждается, что многие из наиболее громких выводов Apple сводятся к недостаткам экспериментального дизайна, а не к фундаментальным ограничениям рассуждений. В исследовании также отмечается, что модель Claude Opus от Anthropic выступала в качестве соавтора.

Ответ: Меньше «иллюзии мышления», больше «иллюзии оценки»

Критика Лоусена, метко озаглавленная «Иллюзия иллюзии мышления», не отрицает, что современные LRM испытывают трудности с решением сложных задач планирования. Однако он утверждает, что работа Apple путает практические ограничения вывода и ошибочные схемы оценки с реальными сбоями в рассуждениях.

Вот три основных проблемы, которые поднимает Лоусен:

  1. В интерпретации Apple были проигнорированы ограничения по объему токенов:
    В момент, когда Apple утверждает, что модели «коллапсируют» в головоломках «Башня Ханоя» с 8+ дисками, такие модели, как Claude, уже достигали своего потолка по выводу токенов. Лоусен ссылается на реальные выводы, в которых модели явно заявляют: «Шаблон продолжается, но я остановлюсь здесь, чтобы сэкономить токены».
  2. Неразрешимые головоломки были засчитаны как неудачи:
    В тесте Apple «Переправа через реку», как сообщается, были включены неразрешимые экземпляры головоломок (например, 6+ пар актеров/агентов с вместимостью лодки, которая математически не может перевезти всех через реку при заданных ограничениях). Лоусен обращает внимание на тот факт, что модели были оштрафованы за признание этого и отказ от их решения.
  3. Скрипты оценки не различали сбой рассуждений и усечение вывода:
    Apple использовала автоматизированные конвейеры, которые оценивали модели исключительно по полным, перечисленным спискам ходов, даже в случаях, когда задача превышала лимит токенов. Лоусен утверждает, что такая жесткая оценка несправедливо классифицировала частичные или стратегические выводы как полные неудачи.

Альтернативное тестирование: пусть модель пишет код

В подтверждение своей точки зрения Лоусен повторно провел часть тестов «Башня Ханоя», используя другой формат: попросил модели сгенерировать рекурсивную функцию Lua, которая выводит решение, вместо того чтобы исчерпывающе перечислять все ходы.

Результат? Модели, такие как Claude, Gemini и OpenAI o3, без проблем выдали алгоритмически корректные решения для 15-дисковой «Башни Ханоя», что намного превосходит уровень сложности, при котором Apple зафиксировала нулевой успех.

Вывод Лоусена: когда вы устраняете искусственные ограничения на вывод, LRM, похоже, вполне способны рассуждать о задачах высокой сложности. По крайней мере, с точки зрения генерации алгоритмов.

Почему этот спор имеет значение

На первый взгляд, это может показаться типичной придирчивостью в области исследований ИИ. Но ставки здесь выше. Работа Apple широко цитировалась как доказательство того, что современные LLM принципиально лишены масштабируемой способности к рассуждению, что, как я утверждал здесь, изначально могло быть не самым справедливым способом представления исследования.

Ответ Лоусена предполагает, что истина может быть более тонкой: да, LLM испытывают трудности с перечислением большого количества токенов в рамках текущих ограничений развертывания, но их движки рассуждений могут быть не так хрупки, как подразумевает оригинальное исследование. Или, что еще лучше, как многие *сказали*, что оно подразумевает.

Конечно, ничто из этого не снимает ответственности с LRM. Даже Лоусен признает, что истинная алгоритмическая обобщенность остается проблемой, и его повторные тесты пока предварительны. Он также предлагает, на чем могли бы сосредоточиться будущие работы по этой теме:

  1. Разрабатывать оценки, различающие способность к рассуждению и ограничения вывода
  2. Проверять разрешимость головоломок перед оценкой производительности модели
  3. Использовать метрики сложности, отражающие вычислительную трудность, а не только длину решения
  4. Рассматривать множественные представления решений для отделения понимания алгоритма от его выполнения

Вопрос не в том, могут ли LRM рассуждать, а в том, могут ли наши оценки отличить рассуждение от печати.

Другими словами, его основной тезис ясен: прежде чем объявлять рассуждения «мертвыми» при рождении, возможно, стоит дважды проверить стандарты, по которым это измеряется.

Передано: Fabrício Carraro.