Исследование Apple обнаружило забытый метод ИИ и использует его для генерации изображений

Сегодня генеративные модели изображений в основном делятся на две основные категории: диффузионные модели, такие как Stable Diffusion, или авторегрессионные модели, такие как GPT-4o от OpenAI. Но Apple только что опубликовала две статьи, которые показывают, что может существовать и третья, забытая техника: Нормализующие потоки. И с добавлением Трансформеров они могут быть более мощными, чем считалось ранее.

Прежде всего: Что такое Нормализующие потоки?

Нормализующие потоки (НП) — это тип моделей ИИ, которые работают, изучая, как математически преобразовывать реальные данные (например, изображения) в структурированный шум, а затем обращать этот процесс для создания новых образцов.

Главное преимущество заключается в том, что они могут рассчитать точную вероятность каждого сгенерированного ими изображения, чего не могут делать диффузионные модели. Это делает потоки особенно привлекательными для задач, где понимание вероятности исхода действительно важно.

Но есть причина, по которой большинство людей в последнее время мало что слышали о них: ранние модели на основе потоков производили размытые изображения или те, которым не хватало детализации и разнообразия, предлагаемых диффузионными и трансформаторными системами.

Исследование № 1: TarFlow

В статье «Normalizing Flows are Capable Generative Models» Apple представляет новую модель под названием TarFlow, сокращение от Transformer AutoRegressive Flow.

По сути, TarFlow заменяет старые, вручную созданные слои, используемые в предыдущих моделях потоков, блоками Трансформеров. В основном, она разбивает изображения на небольшие участки и генерирует их блоками, причем каждый блок предсказывается на основе всех предыдущих. Это называется авторегрессией, что является тем же базовым методом, который OpenAI в настоящее время использует для генерации изображений.

Image: Apple
Изображения различных разрешений, сгенерированные моделями TarFlow. Слева направо, сверху вниз: изображения 256 × 256 на AFHQ, изображения 128 × 128 и 64 × 64 на ImageNet. Источник: Normalizing Flows are Capable Generative Models

Ключевое отличие заключается в том, что в то время как OpenAI генерирует дискретные токены, обрабатывая изображения как длинные последовательности текстоподобных символов, TarFlow от Apple генерирует значения пикселей напрямую, без предварительной токенизации изображения. Это небольшое, но значительное отличие, поскольку оно позволяет Apple избежать потери качества и жесткости, которые часто возникают при сжатии изображений в фиксированный набор токенов.

Тем не менее, существовали ограничения, особенно когда дело касалось масштабирования до более крупных изображений высокого разрешения. И здесь на помощь приходит второе исследование.

Исследование № 2: STARFlow

В статье «STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis» Apple развивает идеи TarFlow и представляет STARFlow (Scalable Transformer AutoRegressive Flow) с ключевыми улучшениями.

Самое большое изменение: STARFlow больше не генерирует изображения напрямую в пиксельном пространстве. Вместо этого она работает с сжатой версией изображения, а затем передает управление декодеру, который масштабирует все обратно до полного разрешения на последнем этапе.

Image: Apple
Случайные образцы STARFlow на ImageNet 256 × 256 и 512 × 512. Источник: STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

Этот переход к так называемому латентному пространству означает, что STARFlow не нужно напрямую предсказывать миллионы пикселей. Она может сначала сосредоточиться на общей структуре изображения, оставляя детали мелкой текстуры декодеру.

Apple также переработала способ обработки моделью текстовых подсказок. Вместо создания отдельного текстового энкодера, STARFlow может использовать существующие языковые модели (например, небольшую языковую модель Gemma от Google, которая теоретически могла бы работать на устройстве) для обработки языкового понимания, когда пользователь дает модели команду создать изображение. Это позволяет стороне модели, отвечающей за генерацию изображений, сосредоточиться на улучшении визуальных деталей.

Как STARFlow сравнивается с генератором изображений 4o от OpenAI

В то время как Apple переосмысливает потоки, OpenAI также недавно вышла за пределы диффузии со своей моделью GPT-4o. Но их подход принципиально отличается.

GPT-4o обрабатывает изображения как последовательности дискретных токенов, подобно словам в предложении. Когда вы просите ChatGPT сгенерировать изображение, модель предсказывает по одному токену изображения за раз, шаг за шагом создавая картину. Это дает OpenAI огромную гибкость: одна и та же модель может генерировать текст, изображения и аудио в рамках одного унифицированного потока токенов.

Компромисс? Пошаговая генерация может быть медленной, особенно для больших изображений или изображений высокого разрешения. И это чрезвычайно дорого с точки зрения вычислений. Но поскольку GPT-4o работает полностью в облаке, OpenAI не так ограничена задержкой или энергопотреблением.

Короче говоря: и Apple, и OpenAI уходят от диффузии, но в то время как OpenAI строит для своих дата-центров, Apple явно строит для наших карманов.