Apple выпустила огромный набор данных для обучения моделей редактирования изображений с помощью ИИ

Apple выпустила Pico-Banana-400K, набор данных из 400 000 изображений, который, что интересно, был создан с использованием моделей Gemini-2.5 от Google. Вот подробности.

Команда исследователей Apple опубликовала интересное исследование под названием «Pico-Banana-400K: Масштабный набор данных для редактирования изображений по текстовым подсказкам».

Помимо исследования, они также выпустили полный набор данных из 400 000 изображений, который имеет некоммерческую исследовательскую лицензию. Это означает, что любой может использовать его и изучать, при условии, что это делается в академических целях или для исследований в области искусственного интеллекта. Другими словами, его нельзя использовать в коммерческих целях.

Так, но что это такое?

Несколько месяцев назад Google выпустила модель Gemini-2.5-Flash-Image, также известную как Nanon-Banana, которая, возможно, является самой передовой среди моделей редактирования изображений.

Другие модели также показали значительные улучшения, но, как отмечают исследователи Apple:

«Несмотря на эти достижения, открытые исследования по-прежнему ограничены отсутствием масштабных, высококачественных и полностью доступных для обмена наборов данных для редактирования. Существующие наборы данных часто основаны на синтетических генерациях из проприетарных моделей или ограниченных подмножествах, подобранных человеком. Кроме того, эти наборы данных часто демонстрируют сдвиги доменов, несбалансированное распределение типов редактирования и непоследовательный контроль качества, что препятствует разработке надежных моделей редактирования».

Таким образом, Apple решила что-то с этим сделать.

Создание Pico-Banana-400K

Первое, что сделала Apple, — это извлекла неопределенное количество реальных фотографий из набора данных OpenImages, «отобранных для обеспечения охвата людей, объектов и текстовых сцен».

Да, они на самом деле использовали Comic Sans

Затем она составила список из 35 различных типов изменений, которые пользователь мог бы попросить модель внести, сгруппированных по восьми категориям. Например:

  • Пиксельные и фотометрические: Добавить пленочное зерно или винтажный фильтр
  • Ориентированные на человека: Фигурка человека в стиле Funko-Pop
  • Композиция сцены и несколько объектов: Изменить погодные условия (солнечно/дождливо/снежно)
  • Семантика на уровне объекта: Переместить объект (изменить его положение/пространственное соотношение)
  • Масштаб: Приблизить

Затем исследователи загружали изображение в Nano-Banana вместе с одним из этих запросов. Как только Nano-Banana завершала генерацию отредактированного изображения, исследователи анализировали результат с помощью Gemini-2.5-Pro, либо одобряя его, либо отклоняя, на основе соответствия инструкции и визуального качества.

Результатом стал Pico-Banana-400K, который включает изображения, созданные в результате однократных правок (один запрос), последовательностей правок из нескольких этапов (несколько итеративных запросов) и пар предпочтений, сравнивающих успешные и неудачные результаты (чтобы модели также могли учиться, как выглядят нежелательные результаты).

Признавая ограничения Nano-Banana в точной пространственной правке, экстраполяции макета и типографике, исследователи заявляют, что надеются, что Pico-Banana-400K послужит «прочной основой для обучения и тестирования следующего поколения моделей редактирования изображений по текстовым подсказкам».

Исследование можно найти на arXiv, а набор данных свободно доступен на GitHub.

Скидки на аксессуары на Amazon