Apple сотрудничает с NVIDIA для исследования повышения производительности LLM

Chance Miller | Среда, 18 декабря, 2024, 13:05.

Chance Miller | 18 декабря 2024 г. — 1:33 pm PT

В сегодняшнем посте в блоге инженеры Apple поделились новыми подробностями о сотрудничестве с NVIDIA по повышению скорости генерации текста с использованием больших языковых моделей.

Ранее в этом году Apple опубликовала и выложила в открытый доступ свою технику Recurrent Drafter (ReDrafter). Она представляет собой новый метод генерации текста с помощью LLM, который значительно быстрее и «достигает лучших результатов». Он сочетает в себе два метода: лучевой поиск (для исследования множества возможностей) и динамическое древовидное внимание (для эффективной обработки выборов).

Хотя их исследование продемонстрировало сильные результаты, Apple сотрудничала с NVIDIA для внедрения ReDrafter в продакшн. В рамках этого сотрудничества ReDrafter был интегрирован в NVIDIA TensorRT-LLM — инструмент, который помогает ускорить работу LLM на графических процессорах NVIDIA.

Вот результаты:

Для интеграции ReDrafter NVIDIA добавила новые операторы или раскрыла существующие, что значительно расширило возможности TensorRT-LLM по поддержке сложных моделей и методов декодирования. ML-разработчики, использующие графические процессоры NVIDIA, теперь могут легко воспользоваться ускоренной генерацией токенов ReDrafter для своих продакшн-приложений LLM с помощью TensorRT-LLM.

При тестировании продакшн-модели с десятками миллиардов параметров на графических процессорах NVIDIA с использованием фреймворка ускорения инференса NVIDIA TensorRT-LLM с ReDrafter, мы наблюдали 2,7-кратное ускорение генерации токенов в секунду при жадном декодировании. Результаты этих тестов показывают, что эта технология может значительно снизить задержку, с которой сталкиваются пользователи, а также использовать меньше графических процессоров и потреблять меньше энергии.

«LLM все чаще используются для поддержки продакшн-приложений, и повышение эффективности инференса может как повлиять на вычислительные затраты, так и снизить задержку для пользователей», — заключают исследователи машинного обучения Apple. «Благодаря новому подходу ReDrafter к спекулятивному декодированию, интегрированному в фреймворк NVIDIA TensorRT-LLM, разработчики теперь могут использовать ускоренную генерацию токенов на графических процессорах NVIDIA для своих продакшн-приложений LLM».

Подробнее об этой работе вы можете узнать на сайте Apple и в посте в блоге на сайте NVIDIA:

Apple: Accelerating LLM Inference on NVIDIA GPUs with ReDrafter
NVIDIA: NVIDIA TensorRT-LLM Now Supports Recurrent Drafting for Optimizing LLM Inference

Подписывайтесь на Chance: Threads, Bluesky, Instagram, и Mastodon.