Apple демонстрирует, насколько M5 быстрее M4 при работе с локальными LLM

Новая публикация в блоге Apple Machine Learning Research показывает, насколько процессор M5 от Apple превосходит M4 при работе с локальной LLM. Вот подробности.

Немного контекста

Пару лет назад Apple выпустила MLX, который компания описывает как «фреймворк для эффективного и гибкого машинного обучения на Apple silicon».

На практике MLX — это фреймворк с открытым исходным кодом, который помогает разработчикам создавать и запускать модели машинного обучения нативно на своих Mac с Apple silicon, поддерживая API и интерфейсы, знакомые миру ИИ.

Вот что Apple говорит о MLX:

MLX — это фреймворк с открытым исходным кодом, который эффективен, гибок и высоко оптимизирован для Apple silicon. Вы можете использовать MLX для широкого спектра приложений, от численных симуляций и научных вычислений до машинного обучения. MLX имеет встроенную поддержку обучения и инференса нейронных сетей, включая генерацию текста и изображений. MLX упрощает генерацию текста и дообучение больших языковых моделей на устройствах Apple silicon.

MLX использует унифицированную архитектуру памяти Apple silicon. Операции в MLX могут выполняться как на ЦП, так и на ГП без необходимости перемещать память. API тесно следует NumPy и является знакомым и гибким. MLX также имеет пакеты более высокого уровня для нейронных сетей и оптимизаторов, а также преобразования функций для автоматического дифференцирования и оптимизации графов.

Одним из доступных сегодня пакетов MLX является MLX LM, предназначенный для генерации текста и дообучения языковых моделей на Mac с Apple silicon.

С помощью MLX LM разработчики и пользователи могут загружать большинство моделей, доступных на Hugging Face, и запускать их локально.

Этот фреймворк даже поддерживает квантизацию — метод сжатия, который позволяет запускать большие модели с меньшим объемом памяти. Это приводит к более быстрому инференсу, который, по сути, является шагом, во время которого модель выдает ответ на входные данные или запрос.

M5 против M4

В своей публикации в блоге Apple демонстрирует прирост производительности инференса нового чипа M5 благодаря новым GPU Neural Accelerators, которые, по словам Apple, «обеспечивают выделенные операции матричного умножения, критически важные для многих рабочих нагрузок машинного обучения».

Чтобы проиллюстрировать прирост производительности, Apple сравнила время, которое потребовалось нескольким открытым моделям для генерации первого токена после получения запроса на MacBook Pro с M4 и M5, используя MLX LM.

Или, как выразилась Apple:

Мы оцениваем модели Qwen 1.7B и 8B в родной точности BF16, а также 4-битные квантованные модели Qwen 8B и Qwen 14B. Кроме того, мы тестируем две модели Mixture of Experts (MoE): Qwen 30B (3B активных параметров, 4-битное квантование) и GPT OSS 20B (в родной точности MXFP4). Оценка выполняется с помощью mlx_lm.generate и сообщается в терминах времени генерации первого токена (в секундах) и скорости генерации (в токенах/с). Во всех этих тестах размер запроса составляет 4096. Скорость генерации оценивалась при генерации дополнительных 128 токенов.

Вот результаты:

Важная деталь: инференс LLM использует разные подходы для генерации первого токена по сравнению с тем, как он работает при генерации последующих токенов. В двух словах, инференс первого токена зависит от вычислительной мощности, в то время как генерация последующих токенов — от пропускной способности памяти.

Именно поэтому Apple также оценила скорость генерации 128 дополнительных токенов, как описано выше. И в целом, M5 продемонстрировал прирост производительности на 19-27% по сравнению с M4.

Вот что Apple говорит об этих результатах:

На протестированных нами архитектурах M5 обеспечивает прирост производительности на 19-27% по сравнению с M4 благодаря большей пропускной способности памяти (120 ГБ/с для M4, 153 ГБ/с для M5, что на 28% выше). Что касается потребления памяти, MacBook Pro с 24 ГБ памяти легко справляется с 8B в точности BF16 или 30B MoE с 4-битным квантованием, удерживая рабочую нагрузку инференса в пределах 18 ГБ для обеих этих архитектур.

Apple также сравнила разницу в производительности при генерации изображений и заявила, что M5 справился с задачей более чем в 3,8 раза быстрее, чем M4.

Полную публикацию Apple в блоге можно прочитать здесь, а подробнее о MLX можно узнать здесь.

Акции на аксессуары на Amazon