
Исследователи Apple разработали новый способ обучения моделей ИИ для подписи изображений, который обеспечивает более точные и подробные описания, используя при этом гораздо меньшие модели. Вот подробности.
Новая модель может ускорить обучение будущих мультимодальных ИИ
В новом исследовании под названием RubiCap: Reinforcement Learning с руководством по критериям для плотного описания изображений команда исследователей Apple в сотрудничестве с Университетом Висконсин—Мэдисон разработала новую структуру для модели плотного описания изображений, добившись передовых результатов на нескольких бенчмарках.
Плотное описание изображений — это задача генерации подробных описаний на уровне областей всего, что происходит на изображении, а не единого общего резюме.
Другими словами, она определяет множество элементов и областей на изображении и описывает их с высокой детализацией, что приводит к гораздо более глубокому пониманию сцены, чем общее описание.
Вот несколько примеров из оригинальной статьи Стэнфорда о плотном описании DenseCap: Fully Convolutional Localization Networks for Dense Captioning:

Плотное описание изображений может использоваться для различных задач, таких как обучение моделей «зрение-язык» и «текст-изображение». Применяясь к функциям, ориентированным на пользователя, оно может улучшить поиск изображений и даже инструменты доступности.
Проблема, по словам исследователей, заключается в том, что современные подходы на основе ИИ для обучения моделей плотного описания изображений часто существенно отстают:
Плотное описание изображений критически важно для межмодального выравнивания в предварительном обучении «зрение-язык» и генерации «текст-изображение», но масштабирование аннотаций экспертного качества непомерно дорого. Хотя синтетическое описание с помощью мощных моделей «зрение-язык» (VLM) является практичной альтернативой, контролируемое дистиллирование часто дает ограниченное разнообразие выходных данных и слабую обобщающую способность. Обучение с подкреплением (RL) могло бы преодолеть эти ограничения, но его успехи до сих пор были сосредоточены в проверяемых областях, которые полагаются на детерминированные проверки — роскошь, недоступная в открытом описании.
Учитывая это, они предложили новую структуру для решения этих проблем, которая приняла интересный подход.
Они случайным образом выбрали 50 000 изображений из двух обучающих наборов данных: PixMoCap и DenseFusion-4V-100K.
Для каждого изображения система сгенерировала несколько вариантов описаний, используя набор существующих моделей «зрение-язык», включая Gemini 2.5 Pro, GPT-5, Qwen2.5-VL-72B-Instruct, Gemma-3-27B-IT и Qwen3-VL-30B-A3B-Instruct.
В то же время модель, обучавшаяся под управлением RubiCap, создавала собственное описание для этого изображения.
Затем RubiCap использовала Gemini 2.5 Pro для:
- Анализа изображения вместе с кандидатскими описаниями и собственным выводом модели;
- Определения того, в чем модели согласились, а что было упущено или искажено;
- Превращения этого в четкие критерии для оценки описаний.
После этого Qwen2.5-7B-Instruct выступил в роли оценщика, оценивая описания по каждому критерию для формирования сигнала вознаграждения, используемого для обучения.
В результате модель получила более точную, структурированную обратную связь о том, что нужно исправить, что привело к более точным описаниям без опоры на единственно «правильный» ответ.

В итоге исследователи создали три модели: RubiCap-2B, RubiCap-3B и RubiCap-7B с 2 миллиардами, 3 миллиардами и 7 миллиардами параметров соответственно.
И по сравнению с существующими подходами они показали удивительно хорошие результаты, превзойдя модели с более чем 72 миллиардами параметров.

Из исследования:
На обширных бенчмарках RubiCap демонстрирует самые высокие показатели побед на CapArena, превосходя контролируемое дистиллирование, предыдущие методы RL, аннотации экспертов и выходные данные, дополненные GPT-4V. На CaptionQA он демонстрирует превосходную эффективность по количеству слов: наша 7-миллиардная модель соответствует Qwen2.5-VL-32B-Instruct, а наша 3-миллиардная модель превосходит свою 7-миллиардную аналог. Примечательно, что использование компактного RubiCap-3B в качестве генератора описаний позволяет создавать более мощные предварительно обученные VLM, чем те, которые были обучены на описаниях из проприетарных моделей.
И
В слепом рейтинговом исследовании RubiCap-7B получает наибольшую долю назначений первого ранга среди всех моделей — включая передовые модели на 72B и 32B — демонстрируя наименьший штраф за галлюцинации и самую высокую точность.
Если вы это упустили, исследователи отметили, что меньшая модель с 3 миллиардами параметров превзошла свою более крупную аналог по некоторым бенчмаркам, предполагая, что для получения высококачественных результатов не всегда требуется огромный масштаб мощной модели плотного описания изображений.
Вот несколько сравнений описаний между RubiCap-7B-DenseFusion и Qwen2.5-VL-7B-Instruct:




Чтобы узнать больше об исследовании, включая подробное рассмотрение его технических терминов, перейдите по этой ссылке.
Стоит посмотреть на Amazon