
В новой статье, опубликованной в этом месяце, исследователи Apple сообщают, что они разработали новые методы обучения больших языковых моделей с использованием как текстовой, так и визуальной информации. По словам исследователей Apple, это позволяет добиться передовых результатов.
Как впервые заметили VentureBeat, цель исследования — продемонстрировать, «как тщательное сочетание различных типов обучающих данных и архитектур моделей может привести к передовым результатам в ряде тестов ИИ».
Статья была опубликована на прошлой неделе и называется «MM1: Методы, анализ и выводы из предварительного обучения мульмодальных больших языковых моделей». Исследователи Apple объясняют в аннотации к статье:
В этой работе мы обсуждаем создание высокопроизводительных мульмодальных больших языковых моделей (MLLM). В частности, мы изучаем важность различных компонентов архитектуры и выбора данных. Путем тщательного и всестороннего анализа энкодера изображений, визуально-языкового коннектора и различных вариантов предварительного обучения данных мы выявили несколько ключевых уроков проектирования.
Например, мы демонстрируем, что для крупномасштабного мульмодального предварительного обучения критически важно использовать тщательное сочетание данных из изображений с подписями, чередующихся изображений с текстом и только текстовых данных для достижения передовых (SOTA) результатов с малым количеством примеров в нескольких тестах по сравнению с другими опубликованными результатами предварительного обучения.
MM1 описывается как «семейство мульмодальных моделей», которые являются передовыми и обладают «привлекательными свойствами, такими как улучшенное обучение в контексте и многомасштабное рассуждение, позволяющее использовать подсказки с цепочкой рассуждений и малым количеством примеров».
Возможности MM1 по обучению в контексте особенно впечатляют:
MM1 может выполнять предсказания в контексте благодаря крупномасштабному мульмодальному предварительному обучению. Это позволяет MM1 (a) считать объекты и следовать пользовательскому форматированию, (b) ссылаться на части изображений и выполнять оптическое распознавание символов (OCR), (c) демонстрировать здравый смысл и знание повседневных объектов, и (d) выполнять базовые математические функции. Изображения взяты из набора данных COCO 2014 для валидации.
Исследователи приходят к выводу, что это семейство моделей «демонстрирует конкурентоспособную производительность в широком диапазоне тестов, одновременно обеспечивая многомасштабное рассуждение и подсказки с малым количеством примеров».
Читайте также: