
Добро пожаловать в Neural. Мир ИИ развивается стремительно. Мы поможем вам не отставать. На прошлой неделе мы упомянули, что американские ИИ-компании сталкиваются с серьезной конкуренцией со стороны китайской DeepSeek R1. Сегодня влияние DeepSeek достигло Уолл-стрит: акции NVIDIA упали на 17%. Давайте подробнее рассмотрим DeepSeek, ответ NVIDIA и общую картину развития ИИ.
Что такое DeepSeek?
DeepSeek — это китайская ИИ-компания, выросшая из хедж-фонда High-Flyer. Компания была основана в 2023 году Лян Вэнэном и базируется в Ханчжоу, Чжэцзян, Китай. Вэнэн семь лет назад стал соучредителем High-Flyer, специализируясь на инвестициях в ИИ.
DeepSeek начала обучение своих моделей до того, как правительство США ограничило доступ Китая к американским ИИ-чипам. По этой причине ожидается, что у компании будет хороший запас графических процессоров NVIDIA, полученных до введения ограничений.
Тем не менее, DeepSeek пришлось работать в условиях ограниченного доступа к дополнительному оборудованию NVIDIA. Это ограничение могло заставить DeepSeek сосредоточиться на инновациях, которые она демонстрирует в своей модели V3.
DeepSeek продемонстрировала способность конкурировать с совершенно новой моделью o3 от OpenAI. ChatGPT o3 является преемником o1, возможно, потому, что O2 — уже существующий британский телефонный оператор.
В любом случае, DeepSeek создала модель, которая практически так же конкурентоспособна, но требует значительно меньше ресурсов и стоит лишь малую долю затрат на эксплуатацию по сравнению с чат-ботом OpenAI.
DeepSeek достигла этого, сосредоточившись на дистилляции моделей — технике, при которой меньшие модели обучаются имитировать поведение более крупных и сложных. Вместо создания постоянно увеличивающихся моделей, как это делают многие американские ИИ-компании, DeepSeek сосредоточилась на создании компактных систем, которые сохраняют производительность, но при этом значительно снижают затраты. Такой подход, вероятно, обусловленный ограниченным доступом к передовым графическим процессорам, позволил создать более экономичную, дешевую в эксплуатации и при этом высококонкурентную модель.
Методология обучения DeepSeek
Это пока только первая часть истории. Что будет дальше, еще предстоит определить, но я думаю, мы можем ожидать, что OpenAI и другие американские ИИ-компании будут отдавать приоритет дистилляции моделей, чтобы снизить эксплуатационные расходы и оставаться конкурентоспособными. Другими словами, DeepSeek не добилась ничего, чего не могли бы повторить американские ИИ-компании. Теперь просто вопрос приоритетов эффективности моделей, поскольку конкуренция уже появилась.
Но дистилляция моделей — это не единственное, что помогло DeepSeek выйти на арену ИИ. DeepSeek активно использует более автоматизированный подход к обучению, который опирается на данные, сгенерированные ИИ, что снижает потребность в наборах данных, размеченных людьми.
В отличие от этого, многие американские компании по-прежнему делают упор на системы с участием человека (human-in-the-loop), где обратная связь от человека направляет улучшение моделей. Этот сдвиг позволяет DeepSeek масштабироваться быстрее, хотя и может нести большие риски в отношении контроля качества и согласования (alignment).
Преимущество метода «ИИ обучает ИИ» заключается в том, что обучение гораздо более масштабируемо, так как требует меньше человеческого участия. Однако проблема заключается в том, что ошибки могут усиливаться. Это также затрудняет проверки согласования ИИ.
Согласование (alignment) относится к задаче обеспечения того, чтобы системы ИИ вели себя в соответствии с человеческими ценностями и намерениями — даже в сложных, открытых сценариях. Именно поэтому существуют такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF), и именно поэтому автоматизированное обучение несет новые риски для безопасности моделей.
Контролируемая дообучение и обучение с подкреплением на основе обратной связи от человека — это то, что позволяет нашим моделям ИИ предоставлять необъективные ответы. Другими словами, мы гарантируем качество данных.
Хотя я не ожидаю резкого изменения в том, как американские ИИ-компании обеспечивают качество данных, я считаю, что мы увидим значительное движение в сторону «ИИ обучает ИИ». Это всегда было целью OpenAI и подобных компаний; DeepSeek, возможно, просто оказала давление, чтобы ускорить этот процесс.
6 миллионов долларов против 600 миллиардов долларов
DeepSeek утверждает, что ее модель V3 была обучена менее чем за 6 миллионов долларов — цифра, которая привлекла внимание своей низкой стоимостью. Эта сумма, вероятно, отражает только затраты на дообучение или финальный этап обучения, и не учитывает затраты на вычисления и НИОКР для предыдущих моделей. Тем не менее, это подчеркивает стратегию DeepSeek: использовать меньше ресурсов для получения большей производительности от хорошо зарекомендовавших себя архитектур.
Еще одна цифра для анализа: 600 миллиардов долларов. Именно столько рыночной капитализации потеряла NVIDIA только сегодня. Это результат того, что инвесторы были напуганы тем, что модели DeepSeek дешевле в обучении и эксплуатации, что означает меньше возможностей для роста NVIDIA, чем ожидалось.
Я считаю, что это чрезвычайно недальновидно и является преувеличенной реакцией. Я думаю вот что: DeepSeek и NVIDIA подчеркивают масштабирование во время тестирования (test-time scaling) — улучшение производительности модели на этапе развертывания, когда ею пользуются конечные пользователи. Это часть более широкого движения к эффективности инференса (inference efficiency) — оптимизации того, как модели генерируют ответы в режиме реального времени. Дело не в более быстром обучении, а в более умной работе.
Другими словами, использование большего количества графических процессоров NVIDIA для решения проблемы, вероятно, по-прежнему является ответом на продвижение технологий ИИ — мы можем просто двигаться дальше и быстрее. Помните: гонка ИИ направлена вперед, а не на то, где мы находимся сейчас.
ИИ — не решенная проблема
Это подводит нас к масштабному Проекту Stargate от OpenAI. Stargate — это, по сути, здание в Техасе, до отказа набитое вычислительными мощностями. Предположим, будущие модели ИИ смогут достигать большего с меньшими затратами. Это просто означает, что эти модели ИИ смогут делать еще больше с существующим объемом вычислительных мощностей, на которые нацелен Stargate.
Существует реальный разрыв между тем, куда эти компании хотят прийти с ИИ, и тем, где мы находимся сегодня. Влияние DeepSeek может заключаться в том, что оно заставило другие ИИ-компании пока сосредоточиться на других целях. Нам еще предстоит увидеть, что будет дальше от DeepSeek, чтобы получить объективное представление о том, являются ли они более инновационной компанией.
Несколько других заметок.
NVIDIA нашла положительный момент в работе DeepSeek, опубликовав сегодня следующее заявление:
DeepSeek — это превосходное достижение в области ИИ и идеальный пример масштабирования во время тестирования (Test Time Scaling). Работа DeepSeek иллюстрирует, как новые модели могут быть созданы с использованием этой техники, используя широко доступные модели и вычислительные ресурсы, полностью соответствующие экспортному контролю. Инференс требует значительного количества графических процессоров NVIDIA и высокопроизводительных сетей. Теперь у нас есть три закона масштабирования: предварительное обучение и пост-обучение, которые продолжаются, и новое масштабирование во время тестирования.
Инференс относится к фазе, когда обученные модели запускаются для получения результатов в реальном времени. Другими словами, мы строим лучший самолет в полете, но нам все еще нужно реактивное топливо, чтобы лететь. NVIDIA по-прежнему выросла на 93% год к году и на 1782% за последние пять лет.
OpenAI будет гораздо щедрее с ChatGPT o3-mini, когда он появится, во многом благодаря конкуренции со стороны DeepSeek.

После публикации в понедельник глава OpenAI Сэм Альтман отреагировал в X на внимание, которое привлекает DeepSeek:
R1 от DeepSeek — впечатляющая модель, особенно с точки зрения того, что им удается предложить за эту цену. Мы, очевидно, выпустим гораздо лучшие модели, и это действительно воодушевляет появление нового конкурента! Мы представим несколько релизов.
Но в основном мы рады продолжать реализовывать нашу дорожную карту исследований и считаем, что для успеха в нашей миссии сейчас больше, чем когда-либо, важны вычислительные мощности. Мир захочет использовать ОЧЕНЬ много ИИ и будет действительно поражен моделями следующего поколения.
С нетерпением ждем возможности представить вам AGI и за его пределами.
Справедливое резюме достижений DeepSeek, и слово «очевидно» в этом предложении говорит о многом.
Президент Трамп коснулся эффекта DeepSeek в понедельник, согласно Reuters:
Выпуск DeepSeek, ИИ от китайской компании, должен стать тревожным сигналом для наших отраслей, чтобы мы сосредоточились на победе в конкурентной борьбе.
Я читал о Китае и некоторых компаниях в Китае, одна в частности, которая предлагает более быстрый и гораздо более дешевый метод ИИ, и это хорошо, потому что вам не нужно тратить так много денег. Я рассматриваю это как позитив, как преимущество.
Я рассматриваю это как позитив, потому что вы тоже будете так делать, так что вы не будете тратить столько, и вы получите тот же результат, надеюсь.
У нас всегда есть идеи. Мы всегда первые. Так что я бы сказал, что это позитив, который может быть очень позитивным развитием. Так что вместо того, чтобы тратить миллиарды и миллиарды, вы будете тратить меньше, и вы, надеюсь, придете к такому же решению.
Гонка за ИИ началась, друзья, и индустрия ИИ — это новая NASA.
DeepSeek замедлила создание новых учетных записей сегодня из-за крупномасштабной кибератаки, повлиявшей на сервис. Это сообщение сейчас отображается вверху chat.deepseek.com:
В связи с масштабными злонамеренными атаками на сервисы DeepSeek регистрация может быть затруднена. Пожалуйста, подождите и попробуйте снова. Зарегистрированные пользователи могут войти в систему как обычно. Спасибо за ваше понимание и поддержку.
Однако нам удалось создать новую учетную запись после нескольких часов попыток в понедельник.
Возможно, вы также видели вирусный пост в социальных сетях, утверждающий, что установка DeepSeek на iOS дает китайской ИИ-компании глубокий доступ к личным данным на вашем iPhone, включая электронную почту и сообщения. К счастью, архитектура iOS работает не так. Вы даже можете создать учетную запись, используя Sign in with Apple, которая может сгенерировать одноразовый адрес электронной почты для дополнительной безопасности. Однако DeepSeek действительно имеет доступ к тому, что вы вводите в чат-бот.
Кроме того, DeepSeek по-прежнему предлагает говорить о математике, кодировании и логических задачах, когда ее спрашивают о событиях 1989 года на площади Тяньаньмэнь. Однако Perplexity, похоже, решила эту проблему.
Больше о последних разработках в области ИИ в следующем выпуске Neural — только на 9to5Mac! Предыдущий выпуск читайте здесь.
Лучшие аксессуары для iPhone