Новая работа ученых Apple углубляется в исследование автономных систем

Тим Кук ранее публично комментировал работу Apple над автономными системами, а новая исследовательская работа двух ученых Apple углубляется в усилия компании. В статье объясняется, как Apple использует комбинацию LiDAR с другими технологиями для 3D-обнаружения объектов, что представляет собой будущее.

Авторами работы являются Инь Чжоу, исследователь ИИ в Apple, и Онсель Тузел, ученый-исследователь в области машинного обучения в компании. Оба присоединились к Apple в течение последних двух лет. Ниже приведены некоторые общие основные моменты, полную работу можно прочитать здесь.

В статье объясняется, как точное обнаружение объектов в 3D-облаках точек может использоваться в автономной навигации, роботах-уборщиках и других областях:

Точное обнаружение объектов в 3D-облаках точек является центральной проблемой во многих приложениях, таких как автономная навигация, роботы-уборщики и дополненная/виртуальная реальность. Для сопряжения сильно разреженного облака точек LiDAR с сетью предложения областей (RPN) большинство существующих усилий были сосредоточены на представлении признаков, созданных вручную, например, проекции с высоты птичьего полета.

В этой работе мы избавляемся от необходимости ручного проектирования признаков для 3D-облаков точек и предлагаем VoxelNet — универсальную сеть 3D-обнаружения, которая объединяет извлечение признаков и прогнозирование ограничивающих рамок в едином, обучаемом end-to-end масштабе глубокой сети.

Кроме того, она показывает, как вышеупомянутая технология может использоваться в эталонных тестах обнаружения автомобилей, пешеходов и велосипедистов на основе LiDAR. В частности, в статье представлен альтернативный вариант представления признаков, созданных вручную, при 3D-обнаружении на основе LiDAR:

Большинство существующих методов 3D-обнаружения на основе LiDAR полагаются на представление признаков, созданных вручную, например, проекцию с высоты птичьего полета. В этой статье мы устраняем узкое место ручного проектирования признаков и предлагаем Vox- elNet — новую сквозную обучаемую глубокую архитектуру для 3D-обнаружения на основе облаков точек.

Наш подход может работать непосредственно с разреженными 3D-точками и эффективно улавливать информацию о 3D-форме. Мы также представляем эффективную реализацию VoxelNet, которая использует разреженность облака точек и параллельную обработку на сетке вокселей.

Чжоу и Тузел считают, что их эксперименты представляют собой будущее 3D-обнаружения объектов, обеспечивая лучшие результаты по сравнению с другими технологиями при обнаружении автомобилей, велосипедистов и пешеходов «со значительным отрывом».

Наши эксперименты на задаче обнаружения автомобилей KITTI показывают, что VoxelNet со значительным отрывом превосходит современные методы 3D-обнаружения на основе LiDAR. На более сложных задачах, таких как 3D-обнаружение пешеходов и велосипедистов, VoxelNet также демонстрирует обнадеживающие результаты, показывая, что он обеспечивает лучшее 3D-представление

Полную работу определенно стоит прочитать, она предлагает редкое представление о работе Apple над автономными системами. Ознакомьтесь с ней здесь.