Исследователи Apple представили LGTM – потенциальное улучшение графики для Apple Vision Pro

Команда исследователей Apple разработала новую структуру, которая позволяет с гораздо большей эффективностью рендерить 3D-сцены высокого разрешения. Вот подробности нового исследования.

Немного контекста

В новом исследовании под названием Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting группа исследователей из Apple и Гонконгского университета предлагает новую структуру, метко названную LGTM.

В исследовании исследователи объясняют, что по мере увеличения разрешения существующие методы быстрой 3D-сплайнтинга Гаусса быстро становятся слишком затратными для выполнения, что делает высокоразрешающие сцены все более непрактичными.

Быстрый 3D-сплайнтинг Гаусса, в двух словах, — это способ, которым ИИ-модель может быстро превратить одно или несколько изображений в 3D-сцену, которую можно просматривать под новыми углами.

На самом деле, мы недавно освещали SPLAT — модель с открытым исходным кодом, разработанную Apple, которая использует быструю 3D-сплайнтинг Гаусса для создания 3D-видов из одного 2D-изображения, и она дает впечатляющие результаты:

Быстрый 3D-сплайнтинг Гаусса отличается от подходов с оптимизацией для каждой сцены, которые строят каждую сцену индивидуально, шаг за шагом. Хотя они обычно занимают больше времени для обработки, они, как правило, могут давать более стабильные результаты.

Таким образом, в то время как старые подходы могут тратить больше времени на настройку конкретной сцены, быстрые методы намного быстрее, хотя существующие версии становятся трудно масштабируемыми до более высоких разрешений.

LGTM

Чтобы решить эту проблему, исследователи предлагают структуру LGTM, которая «разделяет геометрическую сложность и разрешение рендеринга».

Другими словами, он отделяет структуру сцены от ее визуальных деталей, так что система может сохранять простую геометрию, используя текстуры для добавления деталей высокого разрешения.

Важно отметить, что LGTM — это не самостоятельная модель. Вместо этого она основана на существующих быстрых методах, улучшая представление деталей путем наложения предсказаний текстур поверх их геометрии.

Способ, которым они это сделали, был двухэтапным:

  1. Они заставили модель изучать структуру сцены по изображениям низкого разрешения, а затем проверяли выходные данные по эталонным изображениям высокого разрешения. Это заставило модель научиться создавать геометрию, которая по-прежнему выглядела правильно, даже при рендеринге в 2K или 4K, избегая пробелов или артефактов.
  2. Они ввели вторую сеть, ориентированную на внешний вид. Она принимает изображения высокого разрешения и изучает подробные текстуры для каждого геометрического элемента, эффективно накладывая тонкие визуальные детали на более простую геометрию из первой модели.

В результате получилась структура, которая может модернизировать существующие системы для создания детализированных 4K-сцен без квадратичного увеличения вычислительных потребностей, которое сделало предыдущие быстрые методы непрактичными при более высоких разрешениях.

Что это может означать для таких продуктов, как Apple Vision Pro

В настоящее время Apple Vision Pro имеет два дисплея с общим разрешением около 23 миллионов пикселей, что означает, что каждый глаз получает больше пикселей, чем 4K-телевизор.

Как показывает исследование, быстрая 3D-сплайнтинг Гаусса испытывает трудности при таких разрешениях. Дисплеи могут с этим справиться, но быстрое и точное создание сцены становится вычислительным узким местом.

LGTM может помочь решить эту проблему в Apple Vision Pro, что, в свою очередь, может обеспечить более плавную работу и более четкое изображение в ситуациях, где требуется быстрая 3D-сплайнтинг Гаусса.

На практике это может привести к большим возможностям наслаждаться детализированными, иммерсивными средами или более реалистичным сквозным отображением, сохраняя при этом спрос на обработку под контролем.

Чтобы увидеть LGTM в действии, посетите страницу проекта. Она демонстрирует такие методы, как NoPoSplat, DepthSplat и Flash3D, с LGTM и без него, как для однокадровых, так и для двухкадровых входных данных.

Просматривая примеры видео и изображений, легко увидеть, как LGTM помогает создавать результаты, которые намного богаче деталями (особенно в текстурах и текстах) и ближе к эталонным изображениям (обозначенным как GT на образцах изображений).

Просматривая примеры видео и изображений, легко увидеть, как LGTM помогает создавать результаты, которые намного богаче деталями (особенно в текстурах и текстах) и ближе к эталонным изображениям (обозначенным как GT на образцах изображений).

Стоит посмотреть на Amazon