
Недавняя исследовательская работа Apple «Иллюзия мышления» вызвала бурные обсуждения своим прямолинейным выводом: даже самые передовые модели с большими возможностями рассуждения (LRM) «коллапсируют» при выполнении сложных задач. Однако не все согласны с такой формулировкой.
Сегодня Алекс Лоусен, исследователь из Open Philanthropy, опубликовал подробный ответ, в котором утверждается, что многие из наиболее громких выводов Apple сводятся к недостаткам экспериментального дизайна, а не к фундаментальным ограничениям рассуждений. В исследовании также отмечается, что модель Claude Opus от Anthropic выступала в качестве соавтора.
Ответ: Меньше «иллюзии мышления», больше «иллюзии оценки»
Критика Лоусена, метко озаглавленная «Иллюзия иллюзии мышления», не отрицает, что современные LRM испытывают трудности с решением сложных задач планирования. Однако он утверждает, что работа Apple путает практические ограничения вывода и ошибочные схемы оценки с реальными сбоями в рассуждениях.
Вот три основных проблемы, которые поднимает Лоусен:
- В интерпретации Apple были проигнорированы ограничения по объему токенов:
В момент, когда Apple утверждает, что модели «коллапсируют» в головоломках «Башня Ханоя» с 8+ дисками, такие модели, как Claude, уже достигали своего потолка по выводу токенов. Лоусен ссылается на реальные выводы, в которых модели явно заявляют: «Шаблон продолжается, но я остановлюсь здесь, чтобы сэкономить токены». - Неразрешимые головоломки были засчитаны как неудачи:
В тесте Apple «Переправа через реку», как сообщается, были включены неразрешимые экземпляры головоломок (например, 6+ пар актеров/агентов с вместимостью лодки, которая математически не может перевезти всех через реку при заданных ограничениях). Лоусен обращает внимание на тот факт, что модели были оштрафованы за признание этого и отказ от их решения. - Скрипты оценки не различали сбой рассуждений и усечение вывода:
Apple использовала автоматизированные конвейеры, которые оценивали модели исключительно по полным, перечисленным спискам ходов, даже в случаях, когда задача превышала лимит токенов. Лоусен утверждает, что такая жесткая оценка несправедливо классифицировала частичные или стратегические выводы как полные неудачи.
Альтернативное тестирование: пусть модель пишет код
В подтверждение своей точки зрения Лоусен повторно провел часть тестов «Башня Ханоя», используя другой формат: попросил модели сгенерировать рекурсивную функцию Lua, которая выводит решение, вместо того чтобы исчерпывающе перечислять все ходы.
Результат? Модели, такие как Claude, Gemini и OpenAI o3, без проблем выдали алгоритмически корректные решения для 15-дисковой «Башни Ханоя», что намного превосходит уровень сложности, при котором Apple зафиксировала нулевой успех.
Вывод Лоусена: когда вы устраняете искусственные ограничения на вывод, LRM, похоже, вполне способны рассуждать о задачах высокой сложности. По крайней мере, с точки зрения генерации алгоритмов.
Почему этот спор имеет значение
На первый взгляд, это может показаться типичной придирчивостью в области исследований ИИ. Но ставки здесь выше. Работа Apple широко цитировалась как доказательство того, что современные LLM принципиально лишены масштабируемой способности к рассуждению, что, как я утверждал здесь, изначально могло быть не самым справедливым способом представления исследования.
Ответ Лоусена предполагает, что истина может быть более тонкой: да, LLM испытывают трудности с перечислением большого количества токенов в рамках текущих ограничений развертывания, но их движки рассуждений могут быть не так хрупки, как подразумевает оригинальное исследование. Или, что еще лучше, как многие *сказали*, что оно подразумевает.
Конечно, ничто из этого не снимает ответственности с LRM. Даже Лоусен признает, что истинная алгоритмическая обобщенность остается проблемой, и его повторные тесты пока предварительны. Он также предлагает, на чем могли бы сосредоточиться будущие работы по этой теме:
- Разрабатывать оценки, различающие способность к рассуждению и ограничения вывода
- Проверять разрешимость головоломок перед оценкой производительности модели
- Использовать метрики сложности, отражающие вычислительную трудность, а не только длину решения
- Рассматривать множественные представления решений для отделения понимания алгоритма от его выполнения
Вопрос не в том, могут ли LRM рассуждать, а в том, могут ли наши оценки отличить рассуждение от печати.
Другими словами, его основной тезис ясен: прежде чем объявлять рассуждения «мертвыми» при рождении, возможно, стоит дважды проверить стандарты, по которым это измеряется.
Передано: Fabrício Carraro.