Три ключевых момента с недавнего семинара Apple по обработке естественного языка

Несколько месяцев назад Apple провела двухдневное мероприятие, на котором были представлены доклады и публикации о последних достижениях в области обработки естественного языка (NLP). Сегодня компания опубликовала сообщение с основными моментами и всеми представленными исследованиями. Вот обзор.

Семинар «Обработка естественного языка и интерактивные системы 2025» состоялся 15-16 мая, а доклады и публикации были сосредоточены на трех ключевых областях исследований, связанных с NLP:

  • Интерактивные системы на основе разговорного языка
  • Обучение и согласование больших языковых моделей (LLM)
  • Языковые агенты

В ходе мероприятия свои последние работы представили многочисленные исследователи из университетов, институтов, лабораторий и исследовательских групп, в том числе Allen Institute for AI, Imperial College London, MIT, Harvard University, Stanford University и Princeton University.

Некоторые из этих исследователей также работают в индустрии, в таких компаниях, как Microsoft, Amazon, Sony, Google, Tencent, Cohere и, конечно же, Apple.

Вот несколько основных моментов докладов и ссылка на полный список видео и статей, представленных на мероприятии.

1) Коллапс ИИ-моделей и обнаружение галлюцинаций LLM

Это два исследования, представленных Ярином Галем, доцентом Оксфордского университета и директором по исследованиям Института безопасности ИИ Великобритании.

Первое исследование, «Коллапс ИИ-моделей», исследовало, существует ли предел тому, как долго веб будет служить надежным источником данных для обучения LLM, поскольку увеличение использования этих моделей приведет к увеличению количества контента, сгенерированного ИИ, публикуемого в Интернете.

Он объяснил, что, хотя обучение LLM на таких синтетических данных может представлять риск коллапса, поскольку это повлияет на их знания и способности к рассуждению, это можно исправить путем разработки новых инструментов для различения контента, сгенерированного ИИ, и контента, созданного человеком, а также лучшего регулирования и дальнейших исследований о том, как LLM формируют общество.

Его второе исследование, «Обнаружение галлюцинаций LLM», предлагает новый подход к определению уровня уверенности LLM при генерации различных частей ответа. В двух словах, идея состоит в том, чтобы модель генерировала несколько ответов, а затем группировала эти ответы по семантическому смыслу. Это позволило бы более точно рассчитать уровень уверенности и точности ответа, и это структура, которую можно адаптировать для более длинных разговоров.

2) Обучение с подкреплением для интерактивных LLM-агентов с долгим горизонтом

В этом докладе, представленном исследователем Apple Machine Learning Кевином Ченом, был продемонстрирован агент, которого его команда обучила методом, называемым «Leave-one-out proximal policy optimization» (LOOP).

Агент был обучен выполнять многошаговые задачи на основе таких запросов, как этот:

«Недавно я ездил с друзьями на Мауи. Я вел учет денег, которые я должен другим, и которые другие должны мне за эту поездку, в простой заметке. Сделайте частные платежи или запросы Venmo соответственно. В платежах/запросах добавьте примечание: «За поездку на Мауи».»

В первой половине доклада Чен показал, что, поскольку эта задача включала несколько фреймворков и зависимостей знаний, агент может не справиться точно с тем, что было запрошено. Но с LOOP, который итеративно учится на своих прошлых действиях и обучен максимизировать свою награду, наблюдая за собой, запрос был выполнен с меньшим количеством ошибок и предположений.

Чен далее объясняет, что модель была обучена на 24 различных сценариях, но имеет ограничения, такие как неподдержка многоходовых взаимодействий с пользователем.

3) Спекулятивное потоковое вещание: быстрая инференция LLM без вспомогательных моделей

В этом докладе, представленном менеджером по инженерии и техническим лидером Apple Ириной Белоусовой, были продемонстрированы преимущества спекулятивного декодирования, которое обеспечивает более дешевый способ генерации ответов с помощью небольшой модели, которые по качеству не уступают ответам, сгенерированным большими моделями.

По сути, небольшая модель генерирует последовательности кандидатов ответов, которые затем проверяются большой моделью. Если модель принимает ответ, ее работа выполнена. Это позволяет снизить потребление памяти, увеличить производительность и требует меньше параметров по сравнению с аналогичными моделями.

Более того, этот подход «упрощает развертывание, устраняя сложность управления, согласования и переключения между несколькими моделями во время инференции», что означает, что он требует более простой инфраструктуры.

Это исследование предлагает множество технических деталей, которые стоит изучить. Презентация длится чуть более 8 минут, но предлагает очень интересные выводы.

Нажмите здесь, чтобы ознакомиться с выделенными Apple видео и полным списком исследований с мероприятия.

Акции на аксессуары на Amazon