Этот голосовой апдейт ChatGPT предвещает то, чего нам ожидать от нового Siri

Новое голосовое обновление ChatGPT сделало взаимодействие с чат-ботом намного более гибким, чем раньше, и, я думаю, это пример одной из ключевых вещей, которых мы в конечном итоге можем ожидать от нового Siri.

Хотя изменение OpenAI может показаться относительно незначительным на первый взгляд, я уже обнаруживаю, что оно полностью преображает опыт использования ChatGPT

Текст в голос

Когда ChatGPT только появился, он был только текстовым. Позже добавление функциональности для голосового взаимодействия оказало два воздействия.

Во-первых, это сделало чат-бот еще больше похожим на имитацию человека. Это целая отдельная тема, но я согласен с Дэйвом Винером и Джоном Грубером в том, что это не должно быть целью чат-бота. (OpenAI по крайней мере отступил от версии, которая ставила дружелюбие выше точности.)

Во-вторых, это улучшило удобство использования. Очевидно, что говорить с ИИ быстрее и удобнее, чем набирать текст и читать письменные ответы, по крайней мере, для определенных типов взаимодействий.

Однако бывают случаи, когда текстовое и визуальное взаимодействие более уместно, и хотя иметь выбор было здорово, могло расстраивать, когда вы могли выполнить 95% задачи с помощью голоса, но затем приходилось переключаться на текст для таких вещей, как просьба ChatGPT создать изображение.

Это было особенно актуально, потому что два режима были отдельными, и могло показаться, что вы взаимодействуете с двумя совершенно разными моделями ChatGPT — одна голосовая, другая текстовая.

Интеграция двух режимов

Последнее обновление ChatGPT интегрирует текстовые и голосовые взаимодействия.

Теперь вы можете использовать ChatGPT Voice прямо в чате — отдельный режим не нужен. Вы можете говорить, видеть, как появляются ответы, просматривать предыдущие сообщения и видеть в реальном времени такие визуальные элементы, как изображения или карты.

Я подозреваю, что одна из вещей, которая занимает у Apple больше времени, чем ожидалось, — это предоставление именно такого типа интеграции. По сути, компания делает это наоборот: Siri изначально была сервисом, работающим только голосом, а Apple Intelligence теперь добавила возможности на основе текста, такие как обобщение электронной почты.

OpenAI, похоже, сталкивается с некоторыми трудностями при реализации такого рода интеграции. В моих первых тестах иногда это работает очень хорошо, а иногда нет. Например, я сталкивался с тем, что он утверждал, что показал мне карту, хотя на самом деле этого не сделал.

Это будущее нового Siri

Если Siri должна выполнить все обещания, которые Apple дала ей, то она должна делать именно это и даже больше.

Нам нужно будет иметь возможность давать ей голосовые команды, и она должна будет не только давать устные ответы, но и манипулировать текстом и изображениями.

Кроме того, она должна будет действовать как интеллектуальный агент при взаимодействии с нашими установленными приложениями. Мы дадим ей команду типа «Забронируй первый рейс завтра утром из Хитроу в Лас-Вегас», и она будет использовать любые установленные нами туристические приложения для выполнения этой задачи.

Но Apple может в конечном итоге передать на аутсорсинг

Предоставление таких возможностей — непростая задача. Мое мнение все еще далеко не определилось относительно того, насколько вероятно, что Apple сможет не только догнать современные ИИ-чат-боты, но и приблизиться к тому, где они *будут* к моменту запуска нового Siri. Я думаю, очень вероятно, что Apple придется передать ИИ-возможности другим компаниям на аутсорсинг.

Лично я не забочусь о том, будет ли технология собственной разработкой Apple или делегирована ИИ-технологиям от OpenAI, Google или кого-либо еще. Меня волнуют две вещи.

Во-первых, чтобы Apple защищала нашу конфиденциальность, обеспечивая индивидуальные интерфейсы со сторонними чат-ботами точно так же, как она делает это сейчас, переключаясь на ChatGPT. Когда мы задаем вопрос, на который Siri не может ответить, и он переключается на ChatGPT, OpenAI никогда не использует наши взаимодействия для обучения, потому что эта защита конфиденциальности является частью того, о чем Apple договорилась с компанией.

Во-вторых, насколько быстро Apple сможет предоставить эту функциональность своим устройствам. Следующий год — абсолютный предел того, как долго мы можем ждать. Если достижение этого срока означает, что под капотом нового Siri будет настроенная версия ChatGPT, Gemini или чего-то совершенно другого, для меня это абсолютно нормально.

Каково ваше мнение по этому поводу? Пожалуйста, поделитесь своими мыслями в комментариях.

Выбранные аксессуары