Apple провела тест в App Store, чтобы выяснить, может ли ИИ улучшить ранжирование результатов поиска

Исследователи Apple провели A/B-тестирование, чтобы измерить, как релевантные метки, сгенерированные ИИ, повлияют на ранжирование в поиске App Store и загрузки приложений. Вот что они обнаружили.

Метки релевантности, сгенерированные ИИ, незначительно улучшили конверсию поиска в App Store

В новом исследовании под названием «Масштабирование релевантности поиска: улучшение ранжирования в App Store с помощью суждений, сгенерированных LLM» группа исследователей Apple изучила, могут ли большие языковые модели (LLM) помочь улучшить результаты поиска в App Store, генерируя метки релевантности, используемые для обучения системы ранжирования.

Как объясняется в исследовании, релевантность, очевидно, имеет ключевое значение для того, чтобы пользователи могли найти приложения, которые они ищут. И хотя существует множество сигналов, которые могут способствовать ранжированию в поиске, исследователи сосредоточились на двух основных:

  • Поведенческая релевантность, которая отражает, как пользователи взаимодействуют с результатами, например, нажимают ли они на приложение или загружают его.
  • Текстовая релевантность, которая измеряет, насколько хорошо метаданные приложения (например, его название, описание и ключевые слова) семантически соответствуют поисковому запросу пользователя.

В исследовании исследователи говорят, что, хотя существует множество доступных данных о поведенческой релевантности (поскольку ее легко измерить), то же самое нельзя сказать о текстовой релевантности:

Хотя метки поведенческой релевантности многочисленны, метки текстовой релевантности, сгенерированные людьми-оценщиками, встречаются гораздо реже. Это создает фундаментальную проблему: высококачественные метки текстовой релевантности редки и дороги в производстве, что создает узкое место в масштабировании и оставляет задачу текстовой релевантности недостаточно сильной в многоцелевом обучении.

Чтобы решить эту проблему, исследователи дообучили LLM с 3 миллиардами параметров на существующих человеческих суждениях, чтобы она могла научиться присваивать метки релевантности приложениям на основе поискового запроса пользователя и метаданных приложения.

Затем они сгенерировали миллионы новых меток релевантности с помощью этой модели и переобучили систему ранжирования App Store, используя как исходные данные, так и метки, сгенерированные LLM.

После этого они провели офлайн-оценку, а затем глобальное A/B-тестирование на реальном трафике App Store:

(…) модель llm-augmented продемонстрировала статистически значимое увеличение на +0,24% по нашему основному показателю, коэффициенту конверсии, определяемому как доля сеансов поиска с хотя бы одной загрузкой приложения. Хотя это число может показаться небольшим, оно считается значительным улучшением для зрелого промышленного ранжировщика. Этот прирост наблюдался в 89% витрин.

Другими словами, пользователи, которые видели результаты поиска, ранжированные с использованием модели, дополненной LLM, загружали по крайней мере одно приложение на 0,24% чаще, чем пользователи, которые видели результаты поиска, представленные традиционной моделью ранжирования.

И хотя 0,24% — это, очевидно, очень небольшой прирост, он довольно быстро масштабируется, если учесть, что большинство оценок предполагают, что общее количество загрузок в App Store в 2025 году составит около 38 миллиардов. На практике это может привести к десяткам миллионов дополнительных загрузок из поиска App Store, что, безусловно, оценят разработчики.

Чтобы ознакомиться с полным исследованием, перейдите по этой ссылке.

Акции на аксессуары на Amazon