Вы можете попробовать сверхбыструю модель Apple для создания видеозаголовков прямо в своем браузере

Несколько месяцев назад Apple выпустила FastVLM, визуально-языковую модель (VLM), которая обеспечивала почти мгновенную обработку изображений высокого разрешения. Теперь вы можете попробовать ее, если у вас есть Mac с Apple Silicon. Вот как.

Когда мы впервые писали о FastVLM, мы объясняли, что она использует MLX, собственный открытый фреймворк машинного обучения Apple, специально разработанный для Apple Silicon, для ускорения создания видеозаголовков до 85 раз, будучи при этом более чем в 3 раза меньше аналогичных моделей.

С тех пор Apple продолжила работу над проектом, который теперь можно найти на Hugging Face, а не только на GitHub. На Hugging Face вы можете загрузить более легкую версию, FastVLM-0.5B, прямо в браузере и ознакомиться с ней самостоятельно.

В зависимости от вашего оборудования, загрузка может занять некоторое время. На моем MacBook Pro M2 Pro с 16 ГБ памяти это заняло пару минут. Но как только модель загрузилась, она начала точно описывать мою внешность, комнату позади меня, различные выражения лиц и предметы, которые я помещал в поле зрения.

В нижнем левом углу вы можете настроить запрос, который модель будет учитывать при обновлении заголовков в реальном времени, или выбрать один из предложенных вариантов, например:

  • Опишите, что вы видите, одним предложением.
  • Какого цвета моя рубашка?
  • Определите любой видимый текст или письменный контент.
  • Какие эмоции или действия изображены?
  • Назовите предмет, который я держу в руке.

Если вы захотите пойти дальше, вы можете попробовать использовать приложение виртуальной камеры, чтобы подавать видео в инструмент, и наблюдать, как оно мгновенно детально описывает различные сцены, до такой степени, что становится трудно понять, что происходит. Конечно, реальный сценарий использования будет другим, но это подчеркивает, насколько быстрой и точной может быть модель.

Особенно интересно в этом эксперименте то, что он работает локально в браузере, а значит, никакие данные никогда не покидают устройство, и он даже может работать в автономном режиме. Это, конечно, будет отличным вариантом использования для носимых устройств и вспомогательных технологий, где легкость и низкая задержка будут иметь первостепенное значение для раскрытия лучших сценариев использования.

Стоит отметить, что демо-версия работает на более легкой модели с 0,5 миллиарда параметров, в то время как семейство FastVLM также включает более крупные и мощные варианты с 1,5 миллиарда и 7 миллиардами параметров. С более крупными моделями производительность и скорость могут улучшиться еще больше, хотя запускать их непосредственно в браузере, скорее всего, будет невозможно.

Вы уже протестировали? Поделитесь своими мыслями в комментариях.

Скидки на аксессуары на Amazon