Исследователи Apple представили новый прорыв в области ИИ для обучения больших языковых моделей на изображениях и тексте

Chance Miller | Понедельник, 18 марта, 2024, 11:42.

Chance Miller | 18 марта 2024 г. — 8:29 PT

В новой статье, опубликованной в этом месяце, исследователи Apple сообщают, что они разработали новые методы обучения больших языковых моделей с использованием как текстовой, так и визуальной информации. По словам исследователей Apple, это позволяет добиться передовых результатов.

Как впервые заметили VentureBeat, цель исследования — продемонстрировать, «как тщательное сочетание различных типов обучающих данных и архитектур моделей может привести к передовым результатам в ряде тестов ИИ».

Статья была опубликована на прошлой неделе и называется «MM1: Методы, анализ и выводы из предварительного обучения мульмодальных больших языковых моделей». Исследователи Apple объясняют в аннотации к статье:

В этой работе мы обсуждаем создание высокопроизводительных мульмодальных больших языковых моделей (MLLM). В частности, мы изучаем важность различных компонентов архитектуры и выбора данных. Путем тщательного и всестороннего анализа энкодера изображений, визуально-языкового коннектора и различных вариантов предварительного обучения данных мы выявили несколько ключевых уроков проектирования.

Например, мы демонстрируем, что для крупномасштабного мульмодального предварительного обучения критически важно использовать тщательное сочетание данных из изображений с подписями, чередующихся изображений с текстом и только текстовых данных для достижения передовых (SOTA) результатов с малым количеством примеров в нескольких тестах по сравнению с другими опубликованными результатами предварительного обучения.

MM1 описывается как «семейство мульмодальных моделей», которые являются передовыми и обладают «привлекательными свойствами, такими как улучшенное обучение в контексте и многомасштабное рассуждение, позволяющее использовать подсказки с цепочкой рассуждений и малым количеством примеров».

Возможности MM1 по обучению в контексте особенно впечатляют:

MM1 может выполнять предсказания в контексте благодаря крупномасштабному мульмодальному предварительному обучению. Это позволяет MM1 (a) считать объекты и следовать пользовательскому форматированию, (b) ссылаться на части изображений и выполнять оптическое распознавание символов (OCR), (c) демонстрировать здравый смысл и знание повседневных объектов, и (d) выполнять базовые математические функции. Изображения взяты из набора данных COCO 2014 для валидации.

Исследователи приходят к выводу, что это семейство моделей «демонстрирует конкурентоспособную производительность в широком диапазоне тестов, одновременно обеспечивая многомасштабное рассуждение и подсказки с малым количеством примеров».

Читайте также: