
Несколько месяцев назад Apple выпустила FastVLM, визуально-языковую модель (VLM), которая обеспечивала почти мгновенную обработку изображений высокого разрешения. Теперь вы можете попробовать ее, если у вас есть Mac с Apple Silicon. Вот как.
Когда мы впервые писали о FastVLM, мы объясняли, что она использует MLX, собственный открытый фреймворк машинного обучения Apple, специально разработанный для Apple Silicon, для ускорения создания видеозаголовков до 85 раз, будучи при этом более чем в 3 раза меньше аналогичных моделей.
С тех пор Apple продолжила работу над проектом, который теперь можно найти на Hugging Face, а не только на GitHub. На Hugging Face вы можете загрузить более легкую версию, FastVLM-0.5B, прямо в браузере и ознакомиться с ней самостоятельно.
В зависимости от вашего оборудования, загрузка может занять некоторое время. На моем MacBook Pro M2 Pro с 16 ГБ памяти это заняло пару минут. Но как только модель загрузилась, она начала точно описывать мою внешность, комнату позади меня, различные выражения лиц и предметы, которые я помещал в поле зрения.
В нижнем левом углу вы можете настроить запрос, который модель будет учитывать при обновлении заголовков в реальном времени, или выбрать один из предложенных вариантов, например:
- Опишите, что вы видите, одним предложением.
- Какого цвета моя рубашка?
- Определите любой видимый текст или письменный контент.
- Какие эмоции или действия изображены?
- Назовите предмет, который я держу в руке.
Если вы захотите пойти дальше, вы можете попробовать использовать приложение виртуальной камеры, чтобы подавать видео в инструмент, и наблюдать, как оно мгновенно детально описывает различные сцены, до такой степени, что становится трудно понять, что происходит. Конечно, реальный сценарий использования будет другим, но это подчеркивает, насколько быстрой и точной может быть модель.
Особенно интересно в этом эксперименте то, что он работает локально в браузере, а значит, никакие данные никогда не покидают устройство, и он даже может работать в автономном режиме. Это, конечно, будет отличным вариантом использования для носимых устройств и вспомогательных технологий, где легкость и низкая задержка будут иметь первостепенное значение для раскрытия лучших сценариев использования.
Стоит отметить, что демо-версия работает на более легкой модели с 0,5 миллиарда параметров, в то время как семейство FastVLM также включает более крупные и мощные варианты с 1,5 миллиарда и 7 миллиардами параметров. С более крупными моделями производительность и скорость могут улучшиться еще больше, хотя запускать их непосредственно в браузере, скорее всего, будет невозможно.
Вы уже протестировали? Поделитесь своими мыслями в комментариях.
Скидки на аксессуары на Amazon