
Команда машинного обучения Apple в сотрудничестве с исследователями из Нанкинского университета и Гонконгского университета науки и технологий анонсировала интересную 3D-модель ИИ под названием Matrix3D.
Эта так называемая Большая модель фотограмметрии способна реконструировать 3D-объекты и сцены всего из нескольких 2D-фотографий, но с существенным отличием от текущих пайплайнов. Вот почему это важно.
Прежде всего: фотограмметрия. Она использует фотографии для проведения измерений с целью создания 3D-моделей или карт. В настоящее время этот процесс включает использование различных моделей для таких этапов, как оценка позы и предсказание глубины, что может приводить к неэффективности и ошибкам.
Matrix3D упрощает это, выполняя все за один раз. Она принимает изображения, параметры камеры (такие как угол и фокусное расстояние) и данные о глубине, а затем обрабатывает их с помощью унифицированной архитектуры. Это не только упрощает рабочий процесс, но и повышает точность.

Еще более интересным является способ обучения модели. Исследователи использовали стратегию маскированного обучения, очень похожую на ранние ИИ-системы на основе Transformer, которые проложили путь для первых версий ChatGPT.
Они случайным образом скрывали части входных данных в процессе обучения, что заставляло Matrix3D, по сути, учиться заполнять пробелы. Этот метод является ключевым, поскольку он позволяет Matrix3D эффективно обучаться даже на небольших или неполных наборах данных.
Результаты впечатляют. Всего по трем входным изображениям Matrix3D может генерировать детализированные 3D-реконструкции объектов и даже целых окружений, что, очевидно, может иметь очень интересные применения для иммерсивных гарнитур, таких как Apple Vision Pro.
Исследователи выложили исходный код Matrix3D на GitHub и опубликовали свою статью на arXiv. Они также создали сайт, где можно посмотреть больше примеров видео и даже поработать с несколькими точечными облачными реконструкциями объектов и окружений.