Исследователи работают над запуском «Apple GPT» и других функций на iPhone

В мае мы узнали, что Apple уже использует свой собственный ИИ-чат-бот внутри компании, который некоторые назвали Apple GPT. Новая исследовательская работа, по-видимому, направлена на то, чтобы позволить системе в стиле ChatGPT работать на iPhone.

Вторая ИИ-работа Apple посвящена способам генерации анимированных 3D-аватаров из обычного видео, с очевидным применением для Vision Pro…

VentureBeat заметил эти работы.

«Apple GPT»

Работа по чат-боту называется LLM in a flash: Efficient Large Language Model Inference with Limited Memory (LLM на лету: Эффективный вывод больших языковых моделей с ограниченной памятью).

Слово «flash» в названии — это каламбур, поскольку оно относится к минимизации объема данных, которые необходимо передавать из флэш-памяти в оперативную память. LLM — это общий термин для систем ИИ-чатов, обученных на больших объемах текста.

Интенсивные вычислительные и требуемые объемы памяти LLM [создают] проблемы, особенно для устройств с ограниченной емкостью DRAM. Эта статья решает проблему эффективного запуска LLM, которые превышают доступную емкость DRAM, путем хранения параметров модели во флэш-памяти, но подгружая их по требованию в DRAM. Наш метод включает построение модели стоимости вывода, которая гармонирует с поведением флэш-памяти, направляя нас на оптимизацию в двух критически важных областях: сокращение объема передаваемых данных из флэш-памяти и чтение данных большими, более непрерывными блоками.

Этот подход позволяет LLM работать до 25 раз быстрее на устройствах с ограниченной оперативной памятью. Исследователи заключают:

Этот прорыв особенно важен для развертывания передовых LLM в средах с ограниченными ресурсами, тем самым расширяя их применимость и доступность.

Генерация анимированных 3D-аватаров из «плоского» видео

Если вы хотите снимать пространственное видео для 3D-просмотра на Vision Pro, вторая бета-версия iOS 17.2 позволяет делать это на вашем iPhone.

Но у всех нас есть множество «плоского» (монокулярного) видео, а вторая ИИ-работа Apple описывает метод преобразования 2D-видео в анимированные 3D-аватары.

В статье говорится, что обычно для создания реалистичного 3D-аватара требуется многокамерная установка для съемки с разных ракурсов, объединяя их в 3D-модель. Apple удалось разработать метод создания этого из очень короткого фрагмента стандартного видео.

Это очень техническая работа, даже аннотация и выводы которой наполнены акронимами, но суть в том, что метод Apple примерно в сто раз быстрее существующих способов достижения того же результата.

Наш метод использует только монокулярное видео с небольшим количеством (50-100) кадров и автоматически обучается разделять статичную сцену и полностью анимируемый человеческий аватар в течение 30 минут.

Это имеет очевидные применения для Vision Pro, но также может позволить такие вещи, как виртуальная примерка одежды на вашем iPhone, позволяя вам создать свой 3D-аватар, а затем посмотреть, как вы будете выглядеть в различных предметах одежды.

Когда что-либо из этого будет выпущено — это совсем другой вопрос, поскольку Куо еще в августе заявил, что «пока нет никаких признаков» того, что компания выпустит свой собственный ИИ-чат-бот в 2024 году.

Фото: Max Langelott/Unsplash