
В сегодняшнем посте в блоге инженеры Apple поделились новыми подробностями о сотрудничестве с NVIDIA по повышению скорости генерации текста с использованием больших языковых моделей.
Ранее в этом году Apple опубликовала и выложила в открытый доступ свою технику Recurrent Drafter (ReDrafter). Она представляет собой новый метод генерации текста с помощью LLM, который значительно быстрее и «достигает лучших результатов». Он сочетает в себе два метода: лучевой поиск (для исследования множества возможностей) и динамическое древовидное внимание (для эффективной обработки выборов).
Хотя их исследование продемонстрировало сильные результаты, Apple сотрудничала с NVIDIA для внедрения ReDrafter в продакшн. В рамках этого сотрудничества ReDrafter был интегрирован в NVIDIA TensorRT-LLM — инструмент, который помогает ускорить работу LLM на графических процессорах NVIDIA.
Вот результаты:
Для интеграции ReDrafter NVIDIA добавила новые операторы или раскрыла существующие, что значительно расширило возможности TensorRT-LLM по поддержке сложных моделей и методов декодирования. ML-разработчики, использующие графические процессоры NVIDIA, теперь могут легко воспользоваться ускоренной генерацией токенов ReDrafter для своих продакшн-приложений LLM с помощью TensorRT-LLM.
При тестировании продакшн-модели с десятками миллиардов параметров на графических процессорах NVIDIA с использованием фреймворка ускорения инференса NVIDIA TensorRT-LLM с ReDrafter, мы наблюдали 2,7-кратное ускорение генерации токенов в секунду при жадном декодировании. Результаты этих тестов показывают, что эта технология может значительно снизить задержку, с которой сталкиваются пользователи, а также использовать меньше графических процессоров и потреблять меньше энергии.
«LLM все чаще используются для поддержки продакшн-приложений, и повышение эффективности инференса может как повлиять на вычислительные затраты, так и снизить задержку для пользователей», — заключают исследователи машинного обучения Apple. «Благодаря новому подходу ReDrafter к спекулятивному декодированию, интегрированному в фреймворк NVIDIA TensorRT-LLM, разработчики теперь могут использовать ускоренную генерацию токенов на графических процессорах NVIDIA для своих продакшн-приложений LLM».
Подробнее об этой работе вы можете узнать на сайте Apple и в посте в блоге на сайте NVIDIA:
- Apple: Accelerating LLM Inference on NVIDIA GPUs with ReDrafter
- NVIDIA: NVIDIA TensorRT-LLM Now Supports Recurrent Drafting for Optimizing LLM Inference
Подписывайтесь на Chance: Threads, Bluesky, Instagram, и Mastodon.