
Исследователи Apple разработали ИИ-модель, которая реконструирует 3D-объект из одного изображения, сохраняя при этом отражения, блики и другие эффекты, согласованные при разных углах обзора. Подробности ниже.
Немного контекста
Хотя концепция латентного пространства в машинном обучении не является чем-то новым, в последние годы она стала популярнее, чем когда-либо, благодаря взрывному росту ИИ-моделей, основанных на архитектуре трансформеров, и, совсем недавно, на мировых моделях.
В двух словах (и рискуя быть немного неточным, чтобы объяснить общую картину), «латентное пространство» или «пространство вложений» — это термины, описывающие, что происходит, когда вы:
- Сводите информацию к числовым представлениям ее концепций;
- Организуете эти числа в многомерном пространстве, что позволяет вычислять расстояния между ними для каждого отдельного измерения.
Если это все еще звучит слишком абстрактно, один классический пример — взять математическое представление токена «король», вычесть математическое представление токена «мужчина», добавить математическое представление токена «женщина», и вы окажетесь в общем многомерном регионе токена «королева».
На практике хранение информации в виде математических представлений в латентном пространстве делает измерение расстояний между ними и оценку вероятности того, что должно быть сгенерировано, быстрее и менее затратно с вычислительной точки зрения.
Вот короткое видео, которое объясняет латентное пространство, используя другую аналогию:
Хотя приведенные выше примеры сосредоточены на хранении текста в латентном пространстве, ту же идею можно применить ко многим другим типам данных. Это подводит нас к исследованию Apple.
LiTo: Токенизация светового поля поверхности
В новом исследовании Apple под названием LiTo: Токенизация светового поля поверхности исследователи «предлагают 3D-латентное представление, которое совместно моделирует геометрию объекта и зависимую от угла зрения внешность».
Другими словами, они создали способ представления в латентном пространстве не только того, как реконструировать трехмерный объект, но и того, как свет, взаимодействующий с ним, должен выглядеть под разными углами.
Как они это объясняют:
Большинство предыдущих работ сосредоточены либо на реконструкции 3D-геометрии, либо на предсказании зависимого от угла зрения диффузного внешнего вида, и поэтому испытывают трудности с захватом реалистичных зависимых от угла зрения эффектов. Наш подход использует тот факт, что RGB-изображения глубины предоставляют образцы светового поля поверхности. Кодируя случайные подвыборки этого светового поля поверхности в компактный набор латентных векторов, наша модель учится представлять как геометрию, так и внешний вид в едином 3D-латентном пространстве. Это представление воспроизводит зависимые от угла зрения эффекты, такие как зеркальные блики и отражения Френеля, при сложном освещении.
Более того, исследователям удалось обучить модель так, чтобы она могла делать все это по одному изображению, а не по более распространенным методам, требующим изображений под разными углами для 3D-реконструкции.
Хотя весь метод является очень техническим и подробно объяснен в исследовании, основная идея на самом деле относительно проста, как только вы поймете, как работает латентное пространство:
- Сначала энкодер сжимает информацию об объекте в компактное представление в латентном пространстве. Таким образом, вместо хранения каждой видимой детали, он изучает сжатое математическое описание формы объекта и того, как свет взаимодействует с его поверхностью.
- Затем декодер делает обратное. Он реконструирует полный 3D-объект из этого компактного представления, генерируя как геометрию, так и представление о том, как световые эффекты, такие как отражения и блики, должны выглядеть под разными углами обзора.
Обучение LiTo
Для обучения модели исследователи выбрали тысячи объектов, отрендеренных с 150 различных углов обзора и при 3 условиях освещения.
Затем, вместо того чтобы подавать всю эту информацию непосредственно в модель, система случайным образом выбирала небольшие подмножества этих образцов и сжимала их в латентное представление.
Далее декодер обучался реконструировать полный объект и его внешний вид под разными углами и условиями освещения, только из этого подмножества данных.

В процессе обучения система освоила латентное представление, которое отражало как геометрию объекта, так и то, как его внешний вид меняется в зависимости от направления обзора.
После этого они обучили еще одну модель, которая берет одно изображение объекта и предсказывает соответствующее ему латентное представление. Затем декодер реконструирует полный 3D-объект, включая то, как его внешний вид меняется при изменении угла обзора.
Вот несколько сравнений реконструкций между LiTo и моделью под названием TRELLIS, как Apple опубликовала на странице проекта:
Обязательно посетите страницу проекта, где вы также можете загрузить интерактивные сравнения LiTo и TRELLIS бок о бок, как показано на главном изображении этого поста.
А для полного исследования перейдите по этой ссылке.
Стоит посмотреть на Amazon