Будущее приложений — за голосом

Нравится вам это или нет, но пути назад нет: приложения и операционные системы будут неуклонно двигаться к голосовому управлению.

Не обязательно, но неизбежно

Но вот в чем дело: ни один из моих дальнейших аргументов не означает, что вас заставят говорить с вашими устройствами против вашей воли, и уж тем более, что человечество бездумно болтает на пути к будущему, где любое общественное пространство неизбежно наполнится какофонией чрезмерно зависимых, любящих ИИ гиков.

Графический пользовательский интерфейс (GUI) никуда не денется, точно так же, как калькулятор не исчез после выхода Lotus 1-2-3. На самом деле, даже сегодня вы можете купить абак, если захотите. Некоторые из них довольно дороги.

Но в данный момент абсолютно неизбежно, что и разработчики приложений, и операционные системы будут все больше тяготеть к голосовым взаимодействиям.

И тому есть веские причины, самая очевидная из которых — доступность.

Под этим я имею в виду не только пользователей, которые физически не могут взаимодействовать со своими устройствами, хотя это само по себе фантастика. Я также имею в виду пользователей, которые не так разбираются в технологиях, как вы, но имеют те же потребности, пытаясь разобраться с телефонами, компьютерами и платформами, которые, кажется, бесперебойно работают только для всех остальных.

И если ваша первая реакция — воспринимать этих пользователей как ленивых или что-то в этом роде, мне жаль сообщать вам, но вы упускаете суть всего обещания современных вычислений.

Технологические достижения должны снижать порог входа и помогать людям достигать желаемого, независимо от того, насколько хорошо они знакомы с чем-либо, от Терминала до Safari.

Фактически, большая часть существования Apple была основана на этой самой предпосылке, даже если ее руководство время от времени, кажется, забывает об этом.

Привет, компьютер

Итак, вот еще одна веская причина, по которой голосовой подход неизбежен: фактическая технология, необходимая для его работы, наконец-то стала хорошей.

Да, каждая модель LLM все еще совершает глупые ошибки, и, вероятно, всегда будет, пока они основаны на текущих авторегрессивных подходах на базе Transformer.

Но компании, передовые ИИ-лаборатории и даже инди-разработчики либо учатся обходить эти ограничения, либо переходят на совершенно другие архитектуры, некоторые из которых демонстрируют большой потенциал.

За последний год был достигнут значительный прогресс в разработке голосовых интерфейсов, включая такие инструменты, как Wispr и Speechify, которые демонстрируют все более стремительный рост популярности.

По словам Таная Котари, основателя и генерального директора Wispr Flow, его пользователи в конечном итоге достигают точки, когда голос составляет около 75% всего ввода в продукте. А среди опытных пользователей использование клавиатуры снижается до менее чем 5%.

И я съем свою шляпу, если они не работают над полноценными возможностями агентов в дополнение к своим инструментам диктовки. Фактически, Speechify уже явно движется в этом направлении.

Кроме того, давайте не забывать недавнее цунами, вызванное OpenClaw, со всеми его недостатками, которое полностью разрушило все ожидания относительно того, на что скоро будут способны автономные агенты. Фактически, многие пользователи полагаются на такие платформы, как ElevenLabs, чтобы действительно общаться вслух со своими агентами, некоторые из которых увидели, как API ElevenLabs был проактивно реализован самим OpenClaw.

Любой, кто разбирается в этом вопросе, скажет вам, насколько это примечательно, опять же, со всеми недостатками.

Эволюция в этом направлении ускоряется

И вот как быстро все движется: я начал писать эту статью некоторое время назад, до того, как OpenClaw стал тем, чем он является сегодня.

Изначально я написал:

«[…] вскоре приложения и операционные системы будут опираться на автономные фреймворки, где пользователи просто говорят, чего хотят, а ИИ разбирается в смысле, выстраивает шаги и выполняет это действие через готовые к работе с агентами приложения от имени пользователя».

Как оказалось, это действительно не заняло много времени.

Изначально я также намеревался завершить текст, упомянув такие вещи, как MCP от Anthropic, а также App Intents от Apple, чтобы проиллюстрировать, как складываются элементы, которые позволят создать голосовые интерфейсы. Я даже собирался предположить, что новости на этом фронте могут появиться в июне, на WWDC.

Теперь, хотя я по-прежнему считаю, что в июне мы можем увидеть больше голосовых функций, API и возможностей, даже идея о том, что они будут зависеть от разработчиков, начинает выглядеть близорукой или устаревшей.

Возможно, я неправильно помню детали, но, кажется, Джон Грубер говорит о том, как где-то, возможно, в Университете Дрекселя, в итоге замостили путь, протоптанный людьми по траве, потому что он был короче маршрута, спроектированного архитекторами.

Я искренне верю, что для многих пользователей голос — это тот самый короткий путь.

От произнесения запроса в iPhone или Mac и получения в ответ продвинутой «Быстрой команды» до редактирования фотографий, поиска и редактирования документов или даже запроса многошаговых рабочих процессов между приложениями — становится все более очевидным, что, поскольку технологии наконец-то догоняют, интерфейс, который большинству пользователей покажется самым простым для навигации, — это вообще отсутствие интерфейса. Или, скорее, тот, который человечество совершенствовало с первого рыка.

При всем этом я все равно ненавижу, когда люди присылают мне голосовые сообщения.

Аксессуары на Amazon