Apple выпустила впечатляющую открытую модель, которая мгновенно превращает 2D-фотографии в 3D-изображения

Модель под названием SHARP может восстанавливать фотореалистичную 3D-сцену из одного изображения менее чем за секунду. Вот несколько примеров.

SHARP просто потрясающая

Apple опубликовала исследование под названием Sharp Monocular View Synthesis in Less Than a Second (Создание фотореалистичных видов с одного изображения менее чем за секунду), в котором подробно описывается, как они обучили модель восстанавливать 3D-сцену из одного 2D-изображения, сохраняя при этом реальные расстояния и масштаб.

Вот как исследователи Apple представляют это исследование:

Мы представляем SHARP, подход к фотореалистичному синтезу видов с одного изображения. На основе одной фотографии SHARP регрессирует параметры 3D-гауссовского представления изображенной сцены. Это делается менее чем за секунду на стандартном GPU посредством одного прямого прохода через нейронную сеть. 3D-гауссовское представление, созданное SHARP, затем может быть отрисовано в реальном времени, выдавая фотореалистичные изображения высокого разрешения для близлежащих видов. Представление является метрическим, с абсолютным масштабом, поддерживающим метрические перемещения камеры. Экспериментальные результаты демонстрируют, что SHARP обеспечивает надежную обобщающую способность в нулевом выстреле на различных наборах данных. Он устанавливает новый уровень производительности на нескольких наборах данных, снижая LPIPS на 25–34% и DISTS на 21–43% по сравнению с лучшей предыдущей моделью, при этом сокращая время синтеза на три порядка.

В двух словах, модель предсказывает 3D-представление сцены, которое может быть отрисовано с близлежащих точек обзора.

3D-гауссиан — это, по сути, маленький, размытый сгусток цвета и света, расположенный в пространстве. Когда миллионы таких сгустков объединены, они могут воссоздать 3D-сцену, которая выглядит точно с определенной точки зрения.

Для создания такого рода 3D-представления большинству подходов к гауссовскому сплетингу требуются десятки или даже сотни изображений одной и той же сцены, снятых с разных точек обзора. Модель Apple SHARP, напротив, способна предсказать полное 3D-гауссовское представление сцены из одной фотографии за один прямой проход нейронной сети.

Для достижения этого Apple обучила SHARP на больших объемах синтетических и реальных данных, что позволило ей изучить общие закономерности глубины и геометрии в различных сценах.

В результате, при получении новой фотографии, модель оценивает глубину, уточняет ее на основе полученных знаний и затем предсказывает положение и внешний вид миллионов 3D-гауссиан за один проход.

Это позволяет SHARP реконструировать правдоподобную 3D-сцену без необходимости использования нескольких изображений или медленной оптимизации для каждой сцены.

Однако есть и компромисс. SHARP точно отрисовывает близлежащие точки обзора, а не синтезирует совершенно невидимые части сцены. Это означает, что пользователи не могут сильно отклоняться от точки обзора, с которой была сделана фотография, поскольку модель не синтезирует полностью невидимые части сцены.

Именно так Apple поддерживает скорость модели, достаточную для генерации результата менее чем за секунду, а также стабильность, необходимую для создания более убедительного результата. Вот сравнение SHARP и Gen3C, одного из самых мощных предыдущих методов:

Возможно, интереснее, чем верить Apple на слово, — попробовать это самостоятельно. Для этого Apple выложила SHARP на GitHub, и пользователи делятся своими результатами экспериментов.

Вот несколько постов, которыми пользователи X поделились за последние несколько дней:

Вы могли заметить, что последний пост на самом деле является видео. Это выходит за рамки первоначальной сферы применения SHARP для Apple и демонстрирует другие способы расширения этой модели или, по крайней мере, лежащего в ее основе подхода в будущей работе.

Если вы решите попробовать SHARP, поделитесь результатами в комментариях ниже.

Скидки на аксессуары на Amazon