Новая ИИ-модель Apple воссоздает 3D-объекты с реалистичными световыми эффектами по одному изображению

Исследователи Apple разработали ИИ-модель, которая реконструирует 3D-объект из одного изображения, сохраняя при этом отражения, блики и другие эффекты, согласованные при разных углах обзора. Подробности ниже.

Немного контекста

Хотя концепция латентного пространства в машинном обучении не является чем-то новым, в последние годы она стала популярнее, чем когда-либо, благодаря взрывному росту ИИ-моделей, основанных на архитектуре трансформеров, и, совсем недавно, на мировых моделях.

В двух словах (и рискуя быть немного неточным, чтобы объяснить общую картину), «латентное пространство» или «пространство вложений» — это термины, описывающие, что происходит, когда вы:

  1. Сводите информацию к числовым представлениям ее концепций;
  2. Организуете эти числа в многомерном пространстве, что позволяет вычислять расстояния между ними для каждого отдельного измерения.

Если это все еще звучит слишком абстрактно, один классический пример — взять математическое представление токена «король», вычесть математическое представление токена «мужчина», добавить математическое представление токена «женщина», и вы окажетесь в общем многомерном регионе токена «королева».

На практике хранение информации в виде математических представлений в латентном пространстве делает измерение расстояний между ними и оценку вероятности того, что должно быть сгенерировано, быстрее и менее затратно с вычислительной точки зрения.

Вот короткое видео, которое объясняет латентное пространство, используя другую аналогию:

Хотя приведенные выше примеры сосредоточены на хранении текста в латентном пространстве, ту же идею можно применить ко многим другим типам данных. Это подводит нас к исследованию Apple.

LiTo: Токенизация светового поля поверхности

В новом исследовании Apple под названием LiTo: Токенизация светового поля поверхности исследователи «предлагают 3D-латентное представление, которое совместно моделирует геометрию объекта и зависимую от угла зрения внешность».

Другими словами, они создали способ представления в латентном пространстве не только того, как реконструировать трехмерный объект, но и того, как свет, взаимодействующий с ним, должен выглядеть под разными углами.

Как они это объясняют:

Большинство предыдущих работ сосредоточены либо на реконструкции 3D-геометрии, либо на предсказании зависимого от угла зрения диффузного внешнего вида, и поэтому испытывают трудности с захватом реалистичных зависимых от угла зрения эффектов. Наш подход использует тот факт, что RGB-изображения глубины предоставляют образцы светового поля поверхности. Кодируя случайные подвыборки этого светового поля поверхности в компактный набор латентных векторов, наша модель учится представлять как геометрию, так и внешний вид в едином 3D-латентном пространстве. Это представление воспроизводит зависимые от угла зрения эффекты, такие как зеркальные блики и отражения Френеля, при сложном освещении.

Более того, исследователям удалось обучить модель так, чтобы она могла делать все это по одному изображению, а не по более распространенным методам, требующим изображений под разными углами для 3D-реконструкции.

Хотя весь метод является очень техническим и подробно объяснен в исследовании, основная идея на самом деле относительно проста, как только вы поймете, как работает латентное пространство:

  • Сначала энкодер сжимает информацию об объекте в компактное представление в латентном пространстве. Таким образом, вместо хранения каждой видимой детали, он изучает сжатое математическое описание формы объекта и того, как свет взаимодействует с его поверхностью.
  • Затем декодер делает обратное. Он реконструирует полный 3D-объект из этого компактного представления, генерируя как геометрию, так и представление о том, как световые эффекты, такие как отражения и блики, должны выглядеть под разными углами обзора.

Обучение LiTo

Для обучения модели исследователи выбрали тысячи объектов, отрендеренных с 150 различных углов обзора и при 3 условиях освещения.

Затем, вместо того чтобы подавать всю эту информацию непосредственно в модель, система случайным образом выбирала небольшие подмножества этих образцов и сжимала их в латентное представление.

Далее декодер обучался реконструировать полный объект и его внешний вид под разными углами и условиями освещения, только из этого подмножества данных.

В процессе обучения система освоила латентное представление, которое отражало как геометрию объекта, так и то, как его внешний вид меняется в зависимости от направления обзора.

После этого они обучили еще одну модель, которая берет одно изображение объекта и предсказывает соответствующее ему латентное представление. Затем декодер реконструирует полный 3D-объект, включая то, как его внешний вид меняется при изменении угла обзора.

Вот несколько сравнений реконструкций между LiTo и моделью под названием TRELLIS, как Apple опубликовала на странице проекта:

Обязательно посетите страницу проекта, где вы также можете загрузить интерактивные сравнения LiTo и TRELLIS бок о бок, как показано на главном изображении этого поста.

А для полного исследования перейдите по этой ссылке.

Стоит посмотреть на Amazon