Новая языковая модель Apple невероятно быстро пишет длинные тексты

В новом исследовании исследователи Apple представляют диффузионную модель, которая может писать в 128 раз быстрее своих аналогов. Вот как это работает.

Немного науки

Вот что вам нужно знать об этом исследовании: большие языковые модели, такие как ChatGPT, являются авторегрессионными моделями. Они генерируют текст последовательно, по одному токену за раз, учитывая как запрос пользователя, так и все ранее сгенерированные токены.

В отличие от авторегрессионных моделей, существуют диффузионные модели. Они генерируют несколько токенов параллельно и уточняют их в течение нескольких итеративных шагов, пока не сформируется полный ответ.

Наконец, одним из вариантов диффузионных моделей являются модели потокового согласования (flow-matching models), которые, по сути, пропускают итеративный процесс диффузионных моделей и учатся генерировать конечный результат за один раз.

Чтобы глубже изучить, как работают диффузионные модели, ознакомьтесь с этой статьей о модели кодирования Apple на основе диффузии. А чтобы узнать больше о моделях потокового согласования, ознакомьтесь с этой статьей о модели потокового согласования Apple для предсказания структуры белков.

Новое исследование Apple

В исследовании, опубликованном сегодня под названием «FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models» («FS-DFM: Быстрая и точная генерация длинных текстов с помощью диффузионных языковых моделей с малым числом шагов»), исследователи из Apple и Университета штата Огайо предлагают новую модель под названием Few-Step Discrete Flow-Matching, или FS-DFM.

В исследовании исследователи демонстрируют, что FS-DFM смогла написать полные отрывки всего за восемь быстрых раундов уточнения, сравниваясь по качеству с диффузионными моделями, которые требовали более тысячи шагов для достижения аналогичного результата.

Для этого исследователи используют интересный трехэтапный подход: во-первых, модель обучается обрабатывать различные бюджеты итераций уточнения. Затем они используют направляющую «учительскую» модель, чтобы помочь ей вносить более крупные и точные обновления на каждом этапе, не «перескакивая» намеченный текст. И, наконец, они настраивают работу каждой итерации так, чтобы модель могла достигать конечного результата за меньшее количество стабильных шагов.

По сравнению с большими диффузионными моделями, FS-DFM показала хорошие результаты по двум важным показателям: перплексии и энтропии.

В двух словах, оценка перплексии является стандартным показателем качества текста в языковых моделях. Чем ниже перплексия, тем точнее и естественнее звучит текст.

Что касается энтропии, она по сути измеряет, насколько уверенно модель выбирает каждое слово. На практике, если энтропия слишком низкая, текст может стать повторяющимся или предсказуемым, но если она слишком высокая, он может начать звучать случайным или несвязным.

По сравнению с диффузионной моделью Dream с 7 миллиардами параметров и диффузионной моделью LLaDA с 8 миллиардами параметров, варианты FS-DFM с 1,7, 1,3 и 0,17 миллиарда параметров последовательно достигали более низкой перплексии и поддерживали более стабильную энтропию по всем количествам итераций.

Учитывая результаты и перспективность этого метода, а также отсутствие аналогичных моделей и исследований, исследователи также заявили, что «планируют выпустить код и контрольные точки моделей для обеспечения воспроизводимости и дальнейших исследований».

Если вы хотите глубже изучить методы Apple и более подробные детали реализации моделей Apple, обязательно ознакомьтесь с полной статьей на arXiv. В ней представлены многочисленные примеры производительности, такие как этот, где итерация, на которой было изменено каждое слово, выделена разными цветами:

Рисунок 9: Временная шкала генерации на уровне токенов. Отображаемый текст — это финальный образец; фон каждого
токена кодирует шаг его последнего изменения с использованием восьми световых оттенков (начало → конец). Ранние стабилизированные токены отображаются
в ранних оттенках, а поздние правки — к конечным оттенкам, что позволяет легко видеть локальные уточнения и общее схождение.
Обратите внимание, что многие токены окрашены в желтый цвет, что указывает на то, что они были предсказаны на ранней стадии процесса. Это
обусловлено кумулятивным скаляром (в отличие от Рисунка 4).

Найти «FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models» на arXiv.

Скидки на аксессуары на Amazon