Apple изучает, как дизайнеры помогают ИИ-моделям генерировать лучший пользовательский интерфейс

Apple продолжает изучать, как генеративный ИИ может улучшить процесс разработки приложений. Вот что они исследуют.

Краткое введение

Несколько месяцев назад команда исследователей Apple опубликовала интересное исследование об обучении ИИ генерации функционального кода пользовательского интерфейса.

Вместо качества дизайна исследование было сосредоточено на том, чтобы сгенерированный ИИ код действительно компилировался и примерно соответствовал запросу пользователя в отношении того, как должен выглядеть и функционировать интерфейс.

Результатом стала UICoder — семейство моделей с открытым исходным кодом, о которых вы можете узнать больше здесь.

Новое исследование

Теперь часть команды, ответственной за UICoder, выпустила новую работу под названием «Улучшение моделей генерации пользовательского интерфейса на основе обратной связи от дизайнеров».

В ней исследователи объясняют, что существующие методы обучения с подкреплением на основе человеческой обратной связи (RLHF) не являются лучшими способами обучения LLM для надежной генерации хорошо спроектированных пользовательских интерфейсов, поскольку они «плохо соответствуют рабочим процессам дизайнеров и игнорируют богатую обоснованность, используемую для критики и улучшения дизайна пользовательских интерфейсов».

Чтобы решить эту проблему, они предложили другой подход. Они попросили профессиональных дизайнеров напрямую критиковать и улучшать пользовательские интерфейсы, сгенерированные моделью, используя комментарии, наброски и даже непосредственное редактирование, а затем преобразовали эти изменения «до и после» в данные, используемые для дообучения модели.

Это позволило им обучить модель вознаграждения на конкретных улучшениях дизайна, фактически научив генератор пользовательского интерфейса отдавать предпочтение макетам и компонентам, которые лучше отражают суждения о дизайне в реальном мире.

Настройка

В исследовании приняли участие 21 дизайнер:

Привлеченные участники имели разный уровень профессионального дизайнерского опыта, от 2 до более 30 лет. Участники также работали в различных областях дизайна, таких как UI/UX-дизайн, продуктовый дизайн и сервис-дизайн. Дизайнеры-участники также отметили частоту проведения дизайнерских обзоров (как формальных, так и неформальных) в рамках своей работы: от одного раза в несколько месяцев до нескольких раз в неделю.

Исследователи собрали 1460 аннотаций, которые затем были преобразованы в парные примеры «предпочтений» пользовательского интерфейса, сравнивающие исходный интерфейс, сгенерированный моделью, с улучшенными версиями от дизайнеров.

Это, в свою очередь, было использовано для обучения модели вознаграждения для дообучения генератора пользовательского интерфейса:

Модель вознаграждения принимает i) отрисованное изображение (снимок экрана пользовательского интерфейса) и ii) описание на естественном языке (целевое описание пользовательского интерфейса). Эти два входа подаются в модель для получения числовой оценки (вознаграждения), которая калибруется таким образом, чтобы более качественные визуальные дизайны давали более высокие оценки. Для присвоения вознаграждений коду HTML мы использовали автоматизированный конвейер рендеринга, описанный в Разделе 4.1, для первого рендеринга кода в снимки экрана с использованием программного обеспечения для автоматизации браузера.

В качестве генеративных моделей Apple использовала Qwen2.5-Coder в качестве основной базовой модели для генерации пользовательского интерфейса, а затем применила ту же обученную дизайнерами модель вознаграждения к меньшим и более новым вариантам Qwen, чтобы проверить, насколько хорошо подход обобщается на различные размеры и версии моделей.

Интересно, что, как отмечают авторы исследования, эта структура в конечном итоге очень похожа на традиционный конвейер RLHF. Разница, по их мнению, заключается в том, что сигнал обучения исходит от родных для дизайнеров рабочих процессов (комментарии, наброски и непосредственные доработки), а не от оценок «нравится/не нравится» или простых данных ранжирования.

Результаты

Итак, сработало ли это на самом деле? По словам исследователей, ответ — да, с важными оговорками.

В целом, модели, обученные на обратной связи от дизайнеров (особенно с использованием набросков и прямых доработок), производили заметно более качественные дизайны пользовательских интерфейсов, чем как базовые модели, так и версии, обученные только с использованием обычных данных ранжирования или оценки.

Фактически, исследователи отметили, что их лучшая модель (Qwen3-Coder, дообученная с обратной связью в виде набросков) превзошла GPT-5. Возможно, еще более впечатляющим является то, что это было в конечном итоге получено всего из 181 аннотации набросков от дизайнеров.

Наши результаты показывают, что дообучение с помощью нашей модели вознаграждения на основе набросков последовательно приводило к улучшению возможностей генерации пользовательского интерфейса для всех протестированных базовых моделей, что указывает на обобщаемость. Мы также показываем, что небольшое количество высококачественной экспертной обратной связи может эффективно позволить меньшим моделям превзойти более крупные проприетарные LLM в генерации пользовательского интерфейса.

Что касается оговорок, исследователи отметили, что субъективность играет большую роль, когда речь идет о том, что именно считается хорошим интерфейсом:

Одной из основных проблем нашей работы и других человеко-ориентированных задач является учет субъективности и множественных решений дизайнерских проблем. Оба явления также могут приводить к высокой вариативности ответов, что создает проблемы для широко используемых механизмов обратной связи на основе ранжирования.

В исследовании эта вариативность проявлялась в разногласиях относительно того, какие дизайны на самом деле лучше. Когда исследователи независимо оценили те же пары пользовательских интерфейсов, которые ранжировали дизайнеры, они согласились с выбором дизайнеров только в 49,2% случаев, что едва ли больше, чем случайное угадывание.

С другой стороны, когда дизайнеры предоставляли обратную связь, делая наброски улучшений или напрямую редактируя пользовательские интерфейсы, команда исследователей гораздо чаще соглашалась с этими улучшениями: 63,6% для набросков и 76,1% для прямых правок.

Другими словами, когда дизайнеры могли конкретно показать, что они хотят изменить, а не просто выбирать между двумя вариантами, было легче прийти к согласию относительно того, что на самом деле означает «лучше».

Для более подробного изучения исследования, включая технические аспекты, учебные материалы и дополнительные примеры интерфейсов, перейдите по этой ссылке.

Акции на аксессуары на Amazon