
На следующей неделе Apple отправится в Нэшвилл, где представит новые исследования в области компьютерного зрения и проведет технические демонстрации в реальном времени на ежегодной конференции IEEE/CVF по компьютерному зрению и распознаванию образов.
Три статьи, одна демонстрация
В этом году CVPR пройдет с 11 по 15 июня в Нэшвилле, штат Теннесси. Apple будет присутствовать на мероприятии, представляя три недавние научные работы, опубликованные компанией, две из которых мы недавно освещали на 9to5Mac:
- FastVLM: Efficient Vision Encoding for Vision Language Models (Быстрый VLM: эффективное кодирование изображений для моделей «зрение-язык») — модель, которая значительно ускоряет понимание изображений высокого разрешения в реальном времени за счет использования меньшего количества визуальных токенов.
- Matrix3D: Large Photogrammetry Model All-in-One (Matrix3D: большая комплексная модель фотограмметрии) — унифицированная модель, упрощающая создание 3D-контента даже при неполных обучающих данных.
- World-Consistent Video Diffusion with Explicit 3D Modeling (Мировая согласованность видеодиффузии с явным 3D-моделированием) — модель, которая повышает 3D-согласованность и обеспечивает более точное предсказание 3D-структуры при неизвестном положении камеры.
Конференция IEEE/CVF CVPR проводится с 1983 года и является одним из самых престижных и влиятельных событий в этой области. Менее 5% представленных работ отбираются для устных докладов.
Apple будет демонстрировать FastVLM в следующие дни и часы:
- Пятница, 13 июня: 10:00–12:30, 14:30–16:30
- Суббота, 14 июня: 10:00–12:30, 14:30–16:30
- Воскресенье, 15 июня: 10:00–12:30
Кроме того, более 20 исследователей, связанных с Apple, указаны в качестве рецензентов конференции, что свидетельствует о том, насколько глубоко компания стремится интегрироваться с академической стороной экосистемы ИИ.