Apple продолжает работу над ИИ: редактирование фотографий с помощью текстовых команд

Работа Apple над ИИ может идти медленно, как тлеющие угли, когда речь заходит о Siri, но компания не сидит сложа руки. Компания только что выпустила модель ИИ с открытым исходным кодом для редактирования фотографий с помощью простых текстовых команд – это достижение было описано как прорывное.

MGIE – сокращение от Multimodal large language model Guided Image Editing (Многомодальная большая языковая модель для редактирования изображений по инструкциям) – позволяет пользователю использовать естественный язык, чтобы сообщить редактору, чего вы хотите добиться…

Например, пользователь может просто сказать «сделай небо более синим», и MGIE интерпретирует это как «определить и выбрать небо, затем увеличить насыщенность в этой области на 20%».

VentureBeat сообщает, что MGIE способна выполнять впечатляющий спектр правок.

MGIE может выполнять распространенные правки в стиле Photoshop, такие как кадрирование, изменение размера, поворот, отражение и добавление фильтров. Модель также может применять более сложные правки, такие как изменение фона, добавление или удаление объектов и смешивание изображений.

MGIE может оптимизировать общее качество фотографии, например, яркость, контрастность, резкость и цветовой баланс. Модель также может применять художественные эффекты, такие как эскиз, живопись и мультипликация.

MGIE может редактировать определенные области или объекты на изображении, такие как лица, глаза, волосы, одежду и аксессуары. Модель также может изменять атрибуты этих областей или объектов, такие как форма, размер, цвет, текстура и стиль.

Если модель не дает ожидаемого результата, вы можете уточнить свой запрос, отменить эффект и дать другую инструкцию.

В настоящее время это всего лишь модель с открытым исходным кодом на Github, но есть онлайн-демо, которое вы можете использовать, чтобы загрузить свои собственные изображения и поиграть с ним. Краткое ознакомление с ним показывает, что это определенно ранняя бета-версия, но я, безусловно, вижу потенциал.

Вот моя оригинальная фотография:

Моя инструкция звучала так: «сделай небо немного более красным», что MGIE интерпретировала как: «Сделай небо на снимке оттенком красного, а не мерцающим синим. Сделай городской пейзаж затененным, а не резко белым небом». Вот результат (который обрезан по неизвестным причинам):

Хотя это и не готовый к использованию редактор (и демо поддерживает только вывод в очень низком разрешении), что для меня примечательно, так это то, как точно модель скорректировала отражение на внутренней стороне металлической рамы, чтобы оно соответствовало небу. Это, безусловно, показывает ранние обещания.

Мы пока не знаем, когда и если Apple добавит эту возможность в iPhone после того, как предоставит более отполированные результаты, но это, безусловно, кажется очень логичным шагом для компании, которая всегда стремилась сделать функции фотосъемки с использованием ИИ максимально автоматизированными/простыми в использовании.