Исследование Apple о больших языковых моделях проводит важное различие в отношении моделей рассуждения

Появилась новая исследовательская работа Apple, и, судя по реакции, можно подумать, что она опрокинула всю индустрию LLM. Это далеко не так, хотя, возможно, это лучшая попытка вывести в мейнстрим дискуссию, которая уже давно идет в сообществе ML. Вот почему эта работа важна.

Рассматриваемая работа «Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач» безусловно интересна. Она систематически исследует так называемые большие модели рассуждения (LRM), такие как Claude 3.7 и DeepSeek-R1, используя контролируемые головоломки (Башня Ханоя, Blocks World и т. д.) вместо стандартных математических тестов, которые часто страдают от загрязнения данных.

Результаты? LRM лучше справляются со средними по сложности задачами, чем их LLM-аналоги, но так же сильно рушатся на более сложных. И что хуже, по мере усложнения задач эти «рассуждающие» модели начинают думать меньше, а не больше, даже когда у них остается запас токенов.

Но хотя эта работа попадает в заголовки, как будто она раскрыла какой-то глубокий секрет, я бы сказал: ничего из этого не ново. Просто теперь это стало яснее и понятнее широкой публике. И это, на самом деле, отличная новость.

Что показывает работа

Главный вывод заключается в том, что модели, позиционируемые как «рассуждающие», по-прежнему терпят неудачу в задачах, которые может освоить терпеливый ребенок. Например, в Башне Ханоя модели, такие как Claude и o3-mini, терпят крах после семи или восьми дисков. И даже когда им дают точный алгоритм решения и просят просто следовать ему, производительность не улучшается.

Другими словами, они не рассуждают, а скорее итеративно расширяют шаблоны вывода LLM более сложными способами. Это различие важно, и в этом реальная ценность работы Apple. Авторы отвергают нагруженные термины, такие как «рассуждение» и «мышление», которые предполагают символический вывод и планирование, когда на самом деле происходит просто многоуровневое расширение шаблонов: модель выполняет несколько проходов вывода, пока не придет к чему-то, что звучит правдоподобно.

Это не совсем откровение. Главный специалист по ИИ Meta Ян ЛеКун давно утверждает, что современные LLM менее умны, чем домашние кошки, и он открыто говорит, что AGI не появится из Трансформеров. Суббарао Камбхампати годами публикует работы о том, как «цепочки мыслей» не соответствуют тому, как эти модели на самом деле вычисляют. А Гэри Маркус, ну, его давняя теория «глубокое обучение упирается в стену» получает еще одно перо в свою шляпу.

Сопоставление шаблонов, а не решение проблем

Пожалуй, самым показательным данным в исследовании является следующее: когда сложность возрастает, модели буквально перестают стараться. Они сокращают свое собственное внутреннее «мышление» по мере масштабирования задач, несмотря на наличие большого запаса вычислительных ресурсов. Это не просто технический провал, а скорее концептуальный.

Работа Apple помогает прояснить, что многие LLM терпят неудачу не потому, что они «недостаточно обучены» или «просто нуждаются в большем количестве данных». Они терпят неудачу, потому что им принципиально не хватает способа представлять и выполнять пошаговую алгоритмическую логику. И это не то, что можно преодолеть с помощью промптинга цепочки мыслей или тонкой настройки с подкреплением.

Цитируя саму работу: «LRM не используют явные алгоритмы и непоследовательно рассуждают при решении головоломок». Даже когда им дают план решения, они спотыкаются.

Так является ли это плохой новостью?

Да. Просто не новой новостью.

Эти результаты не являются большим сюрпризом для тех, кто глубоко погружен в сообщество исследователей ML. Но вызванный ими ажиотаж подчеркивает кое-что более интересное: широкая общественность, возможно, наконец, готова разобраться в различиях, которые мир ML делает годами, особенно в том, что модели вроде этих могут и чего они *не могут* делать.

Это различие важно. Когда люди называют эти системы «мыслящими», мы начинаем относиться к ним так, как будто они могут заменить то, что им в настоящее время не под силу. Именно тогда галлюцинации и логические сбои превращаются из интересных причуд в опасные слепые зоны.

Вот почему вклад Apple имеет значение. Не потому, что он «разоблачил» LLM, а потому, что он помогает провести более четкие границы вокруг того, что они собой представляют, а что нет. И этой ясности давно пора.

Обновление: В предыдущей версии этого текста утверждалось, что Ян ЛеКун сравнил современные LLM с домашними кошками. На самом деле, он утверждает, что современные LLM *менее способны*, чем домашние кошки. Текст был пересмотрен, чтобы лучше отразить его позицию.