Исследователи Apple разработали ИИ, который тестирует несколько идей параллельно перед ответом

В новой статье команда исследователей Apple подробно описывает креативную структуру, которая улучшает ответы LLM в задачах математического рассуждения, генерации кода и многого другого. Вот подробности.

Диффузия и авторегрессия, объединенные

В недавно пересмотренном исследовании под названием LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning исследователи Apple совместно с исследователями из Калифорнийского университета в Сан-Диего подробно описывают интересный способ улучшения качества ответов, генерируемых большими языковыми моделями (LLM) в определенных областях.

В прошлом мы обсуждали диффузионные модели, которые генерируют текст, итеративно обрабатывая множество токенов параллельно с каждым проходом, в отличие от авторегрессивных моделей, которые работают, вычисляя и предсказывая токены по одному.

Apple также рассматривала диффузионные модели, применяемые к прогнозированию сворачивания белков и кодированию, что бесконечно интересно.

В двух словах, LaDiR объединяет оба подхода: он использует диффузию во время процесса рассуждения, а затем генерирует окончательный результат авторегрессивно.

Более того, он работает с множеством путей рассуждения параллельно, каждый из которых выполняет собственный диффузионный процесс, с механизмом, который подталкивает их к исследованию различных возможностей, тем самым производя разнообразный набор кандидатских ответов.

Они объясняют, что во время инференса, когда модель фактически решает, что и как отвечать на запрос пользователя, LaDiR генерирует серию скрытых блоков рассуждений, каждый из которых начинается как случайный узор (или шум) и постепенно уточняется до более связного шага.

Как только модель определяет, что достаточно рассуждений проведено, она переключается на авторегрессивную генерацию окончательного ответа, один токен за раз.

Ключевой момент заключается в том, что LaDiR может выполнять несколько таких путей рассуждения параллельно, с механизмом, который побуждает его исследовать различные возможности, чтобы избежать их слишком раннего схождения к одной и той же идее, что сведет на нет всю цель.

Важно отметить, что LaDiR сам по себе не является новой моделью, а скорее фреймворком, который построен на основе существующих языковых моделей. Он изменяет способ их рассуждения при решении задачи, а не заменяет их полностью.

Как работает LaDiR

В исследовании исследователи применили LaDiR к модели LLaMA 3.1 8B от Meta для математического рассуждения и планирования головоломок, а также к Qwen3-8B-Base для генерации кода.

На математических бенчмарках LaDiR достиг более высокой точности, чем существующие подходы, и продемонстрировал более сильную производительность даже на более сложных задачах вне распределения.

На бенчмарках генерации кода, таких как HumanEval, LaDiR выдавал более надежные результаты, заметно превосходя стандартную дообучение, особенно на более сложных задачах.

А в задачах планирования типа головоломки, таких как игра Countdown, LaDiR исследовал более широкий спектр допустимых ответов, чем любая базовая модель, и находил правильные решения более надежно, чем все общецелевые базовые модели. Однако он уступал специализированной, заточенной под конкретную задачу модели по точности с одной попытки.

Хотя некоторые аспекты статьи о LaDiR могут быть довольно техническими, это стоит прочитать, если вас интересует внутренняя работа больших языковых моделей и новые подходы к повышению производительности в генерации текста.

Чтобы прочитать полную статью, перейдите по этой ссылке.

Стоит посмотреть на Amazon