
Исследователи Apple провели A/B-тестирование, чтобы измерить, как релевантные метки, сгенерированные ИИ, повлияют на ранжирование в поиске App Store и загрузки приложений. Вот что они обнаружили.
Метки релевантности, сгенерированные ИИ, незначительно улучшили конверсию поиска в App Store
В новом исследовании под названием «Масштабирование релевантности поиска: улучшение ранжирования в App Store с помощью суждений, сгенерированных LLM» группа исследователей Apple изучила, могут ли большие языковые модели (LLM) помочь улучшить результаты поиска в App Store, генерируя метки релевантности, используемые для обучения системы ранжирования.
Как объясняется в исследовании, релевантность, очевидно, имеет ключевое значение для того, чтобы пользователи могли найти приложения, которые они ищут. И хотя существует множество сигналов, которые могут способствовать ранжированию в поиске, исследователи сосредоточились на двух основных:
- Поведенческая релевантность, которая отражает, как пользователи взаимодействуют с результатами, например, нажимают ли они на приложение или загружают его.
- Текстовая релевантность, которая измеряет, насколько хорошо метаданные приложения (например, его название, описание и ключевые слова) семантически соответствуют поисковому запросу пользователя.
В исследовании исследователи говорят, что, хотя существует множество доступных данных о поведенческой релевантности (поскольку ее легко измерить), то же самое нельзя сказать о текстовой релевантности:
Хотя метки поведенческой релевантности многочисленны, метки текстовой релевантности, сгенерированные людьми-оценщиками, встречаются гораздо реже. Это создает фундаментальную проблему: высококачественные метки текстовой релевантности редки и дороги в производстве, что создает узкое место в масштабировании и оставляет задачу текстовой релевантности недостаточно сильной в многоцелевом обучении.
Чтобы решить эту проблему, исследователи дообучили LLM с 3 миллиардами параметров на существующих человеческих суждениях, чтобы она могла научиться присваивать метки релевантности приложениям на основе поискового запроса пользователя и метаданных приложения.
Затем они сгенерировали миллионы новых меток релевантности с помощью этой модели и переобучили систему ранжирования App Store, используя как исходные данные, так и метки, сгенерированные LLM.
После этого они провели офлайн-оценку, а затем глобальное A/B-тестирование на реальном трафике App Store:
(…) модель
llm-augmentedпродемонстрировала статистически значимое увеличение на +0,24% по нашему основному показателю, коэффициенту конверсии, определяемому как доля сеансов поиска с хотя бы одной загрузкой приложения. Хотя это число может показаться небольшим, оно считается значительным улучшением для зрелого промышленного ранжировщика. Этот прирост наблюдался в 89% витрин.
Другими словами, пользователи, которые видели результаты поиска, ранжированные с использованием модели, дополненной LLM, загружали по крайней мере одно приложение на 0,24% чаще, чем пользователи, которые видели результаты поиска, представленные традиционной моделью ранжирования.
И хотя 0,24% — это, очевидно, очень небольшой прирост, он довольно быстро масштабируется, если учесть, что большинство оценок предполагают, что общее количество загрузок в App Store в 2025 году составит около 38 миллиардов. На практике это может привести к десяткам миллионов дополнительных загрузок из поиска App Store, что, безусловно, оценят разработчики.
Чтобы ознакомиться с полным исследованием, перейдите по этой ссылке.
Акции на аксессуары на Amazon