Линь Цзюньян покинул Alibaba и впервые опубликовал сообщение: Эпоха интеллектуальных агентов приближается

__

Автор: Линь Цзюньян, бывший руководитель Qwen, самый молодой P10 в Alibaba. Ушел из Alibaba в марте 2026 года

Исходное название статьи «От «Рассуждающего» мышления к «Агентному» мышлению»

Последние два года изменили наш подход к оценке моделей и ожиданиям от них. o1 от OpenAI доказал, что «мышление» может стать первоклассной способностью, способностью, которую можно специально тренировать и открывать пользователям. DeepSeek-R1 доказал, что этот стиль рассуждений можно полностью воспроизвести и расширить за пределами первоначальных ведущих лабораторий. OpenAI описывает o1 как модель, которая использует обучение с подкреплением для «мыслительного» процесса перед ответом; в то время как DeepSeek позиционирует R1 как открытый модель рассуждений, способный конкурировать с o1.

Этот этап был значимым. Но в первой половине 2025 года внимание в основном сосредоточилось на «рассуждающем мышлении»: как заставить модели задействовать больше вычислительных мощностей для рассуждения, как обучать их с помощью более сильных сигналов вознаграждения и как представлять или контролировать это дополнительное рассуждение. Теперь вопрос в том, что будет дальше? Я верю, что ответ — это «агентное мышление»: мыслить для действия, непрерывно обновляя планы в процессе взаимодействия с окружающей средой на основе обратной связи из реального мира.

  1. Что на самом деле научили нас восхождение o1 и R1

Первая волна моделей рассуждений научила нас: если мы хотим расширить обучение с подкреплением (RL) в языковых моделях, нам нужны детерминированные, стабильные и масштабируемые сигналы обратной связи. Математика, код, логика и другие проверяемые области стали ядром, потому что в этих сценариях сигналы вознаграждения гораздо сильнее, чем обычные сигналы предпочтений. Они позволяют обучению с подкреплением оптимизировать «правильность», а не «показатель разумности». Инфраструктура стала важнейшим приоритетом.

Как только модель была обучена рассуждать на более длинных траекториях, обучение с подкреплением перестало быть лишь легковесным дополнением к контролируемой настройке (SFT). Оно стало сложной системной задачей. Вам нужны масштабные развертывания стратегий (rollouts), механизмы верификации с высокой пропускной способностью, стабильные обновления стратегий и эффективные возможности выборки. Появление моделей рассуждений стало не только прорывом в моделировании способностей, но и победой инфраструктурной инженерии. OpenAI описывает o1 как линию продуктов рассуждений, обученных с помощью RL, а DeepSeek R1 далее подчеркивает это направление, показывая, насколько огромными должны быть специальные алгоритмы и инфраструктурные работы для RL на основе рассуждений. Это первая значительная перемена в индустрии: переход от расширения предварительного обучения к расширению послеобучения для усиления способностей к рассуждению.

  1. Настоящая проблема никогда не была лишь в «слиянии мышления и инструкций»

В начале 2025 года у многих из нашей команды Qwen была грандиозная идея: идеальная система должна объединять «мышление» и «инструкции». Она должна поддерживать регулируемую силу рассуждений, концептуально подобную настройкам «низкий/средний/высокий». Более того, она должна автоматически выводить необходимое количество рассуждений на основе подсказок и контекста, самостоятельно решая, когда отвечать немедленно, когда подумать дольше и когда вкладывать массу вычислительных ресурсов в действительно сложные задачи.

С концептуальной точки зрения это правильное направление. Qwen3 является одной из самых четких публичных попыток. Она ввела «гибридный режим мышления», учитывая как рассуждающее, так и нерсуждающее поведение в одном и том же модельном ряду, подчеркивая контролируемый бюджет мышления и описывая четырехэтапный поток послеобучения — в который явно включено «слияние режимов мышления» после холодной инициализации длинной цепочки рассуждений (long-CoT) и рассуждающего RL.

Однако, сделать это слияние легко сказать, но трудно осуществить. Проблема заключается в данных. Когда люди говорят о слиянии мышления и инструкций, первым делом они часто думают о совместимости на стороне модели: может ли одна контрольная точка (checkpoint) поддерживать оба режима? Может ли один и тот же шаблон чата плавно переключаться между ними? Может ли стек услуг предоставить соответствующие переключатели управления? Но более глубокий конфликт заключается в том, что распределение данных и целевые поведения для этих двух режимов имеют принципиальные различия.

При попытке сбалансировать «слияние моделей» и «улучшение качества и разнообразия данных послеобучения» мы столкнулись с некоторыми проблемами. В процессе анализа мы внимательно наблюдали, как пользователи фактически используют режимы мышления и инструкций в реальных сценариях. Мощная модель инструкций часто получает вознаграждение за прямоту, краткость, соблюдение формата и поддержание крайне низкой задержки в повторяющихся, массовых корпоративных задачах (таких как переписывание, аннотирование, поддержка шаблонов, структурированное извлечение и операционные вопросы). Напротив, мощная модель мышления получает вознаграждение за использование большего количества токенов на сложных задачах, поддержание внутренней логической структуры, исследование альтернативных путей и сохранение достаточного внутреннего вычислительного объема для значительного повышения конечной правильности.

Эти два режима поведения взаимно ограничивают друг друга. Если данные слияния не были тщательно спланированы, результат часто оказывается неудовлетворительным: «мышление» становится шумным, громоздким или нерешительным; в то время как поведение «инструкций» теряет свою четкость, надежность снижается, и стоимость использования значительно превышает реальные ожидания коммерческих пользователей.

Поэтому на практике разъединение двух подходов по-прежнему привлекательно. В конце 2025 года, после первоначальной гибридной архитектуры Qwen3, продуктовая линейка 2507 выпустила совершенно отдельные обновления Instruct (инструкции) и Thinking (мышление), включая независимые варианты на 30B и 235B. В коммерческих развертываниях многие клиенты по-прежнему стремятся получить высокую пропускную способность, низкие затраты и высоко контролируемое поведение инструкций для пакетных операций. В этих сценариях слияние не приносит заметных преимуществ. Разделение двух продуктовых линий дало команде возможность более чисто решать специфические задачи данных и обучения для каждого режима.

Другие лаборатории выбрали противоположный путь. Anthropic публично выступает за концепцию интегрированной модели: Claude 3.7 Sonnet позиционируется как гибридная модель рассуждений, позволяющая пользователям выбирать между обычным ответом и расширенным мышлением, а пользователи API могут устанавливать бюджет мышления. Anthropic четко заявляет, что они считают, что рассуждение должно быть встроенной интегрированной способностью, а не отделенной независимой моделью. GLM-4.5 также позиционирует себя как гибридная модель рассуждений, которая объединяет рассуждение, кодирование и агентные способности; позже DeepSeek также представила механизм «мышления и немышления» в версии V3.1.

Ключевая проблема здесь заключается в том, является ли такое слияние естественным и органичным. Если мышление и инструкции просто насильно вставлены в одни и те же веса модели и ведут себя как два неуклюже сшитых независимых персонажа, то пользовательский опыт останется крайне несогласованным. Действительно успешное слияние требует плавного диапазона投入度 рассуждений. Модель должна быть в состоянии выражать различные уровни вовлеченности и, в идеальном состоянии, адаптивно делать выбор. Контроль уровня, подобный GPT, подчеркивает это: это стратегия распределения вычислительных ресурсов, а не простое бинарное переключение.

  1. Почему направление Anthropic является полезной коррекцией

Когда Anthropic выпустила Claude 3.7 и Claude 4, их внешняя реклама была довольно сдержанной. Они сосредоточились на интегрированном рассуждении, контролируемом пользователем бюджете мышления, реальных задачах, качестве кодирования и позже введенной возможности вызывать инструменты во время расширенного мышления. Claude 3.7 была представлена как гибридная модель рассуждений с контролируемым бюджетом; Claude 4 пошла еще дальше, позволяя процессу рассуждения пересекаться с вызовами инструментов. В то же время Anthropic многократно подчеркивает, что кодирование, длительные задания и агентные рабочие процессы являются их основными целями.

Просто создание более длинных траекторий рассуждений не делает модель автоматически умнее. Во многих случаях чрезмерная открытость процесса рассуждения фактически выставляет неэффективность распределения вычислительных ресурсов. Если модель пытается рассуждать обо всем тем же длинным способом, это говорит о том, что она не смогла правильно расставить приоритеты, не смогла упростить информацию или вообще не может предпринять реальные действия. Развитие Anthropic передает более дисциплинированный подход: мышление должно формироваться целевыми рабочими нагрузками. Если целью является кодирование, то ценность мышления должна проявляться в навигации по кодовой базе, планировании, декомпозиции задач, восстановлении ошибок и организации инструментов. Если целью является агентный рабочий процесс, то мышление должно быть направлено на улучшение качества выполнения на длительных циклах, а не на создание красноречивого промежуточного изложения.

Это подчеркивание «целевой полезности» указывает на более крупный тренд: мы переходим от эпохи обучения моделей к эпохе обучения агентов. Мы также четко указали это в блоге Qwen3 — «мы переходим от эпохи обучения моделей к эпохе обучения агентов» и связываем будущие прорывы в RL с обратной связью из окружающей среды, необходимой для длительного рассуждения. Агенты — это системы, способные разрабатывать планы, определять, когда действовать, вызывать инструменты, воспринимать обратную связь из окружающей среды, корректировать стратегии и поддерживать работу на длительных циклах. Их основное определение заключается в замкнутом взаимодействии с реальным миром.

  1. Что на самом деле означает «агентное мышление»

Агентное мышление — это совершенно другая цель оптимизации. Стандарты для оценки «рассуждающего мышления» обычно основаны на качестве внутренней проверки перед получением окончательного ответа: может ли модель доказать теорему, написать доказательство, сгенерировать код без ошибок или пройти контрольные испытания. А стандарты для оценки «агентного мышления» заключаются в том, может ли модель постоянно достигать значительного прогресса в процессе взаимодействия с окружающей средой.

Ключевой вопрос изменяется с «достаточно ли долго модель думает?» на «достаточно ли способ мышления модели поддерживает ее способность действовать эффективно?» Агентное мышление должно справляться с несколькими проблемами, которые в основном могут избегать чистые модели рассуждений:

  • a. определить, когда остановить размышления и принять меры

  • b. выбрать, какой инструмент использовать и в каком порядке вызывать

  • c. интегрировать шумные или неполные наблюдения из окружающей среды

  • d. пересмотреть планы после неудачи

  • e. поддерживать логическую последовательность в многоходовых диалогах и многократных вызовах инструментов

Кратко говоря, модели с агентным мышлением должны рассуждать через действия.

  1. Почему инфраструктура для агентного обучения с подкреплением более сложна

Как только цель меняется с «решения контрольных задач» на «выполнение интерактивных задач», технологический стек RL претерпевает кардинальные изменения. Традиционная инфраструктура для рассуждающего RL оказывается совершенно недостаточной. В рассуждающем RL обычно можно рассматривать развертывания стратегий (rollouts) как относительно независимые траектории, достаточно просто иметь четкие оценщики. Но в агентном RL стратегия глубоко встроена в огромную поддерживающую структуру: серверы инструментов, браузеры, терминалы, поисковые системы, симуляторы, песочницы исполнения, API-уровни, системы памяти и организационные структуры. Окружение больше не является статическим арбитром; оно становится неотъемлемой частью всей системы обучения.

Это создает совершенно новые системные требования: обучение и рассуждение должны быть более тщательно декомпозированы. Без этой декомпозиции пропускная способность развертывания стратегий просто обрушится. Представьте себе кодирующего агента, который должен запускать сгенерированный код в реальном тестовом фрейме: рассуждающая сторона будет вынуждена приостановиться из-за ожидания обратной связи по исполнению, в то время как обучающая сторона окажется в состоянии голодания из-за отсутствия полной траекторной информации, а использование GPU в целом будет значительно ниже, чем в традиционном рассуждающем RL. Если добавить задержки инструментов, локальную наблюдаемость и состояния среды, эти неэффективности будут дополнительно усугублены. В результате, еще до того, как вы достигнете ожидаемых показателей, весь прогресс эксперимента станет крайне медленным и мучительным.

Среда сама по себе также поднимается до уровня центрального исследовательского продукта. В эпоху SFT (обучение с подкреплением) мы были одержимы разнообразием данных. Но в эпоху агентов мы должны сосредоточиться на качестве окружающей среды: стабильности, достоверности, охвате сценариев, градации трудности, разнообразии состояний, богатстве обратной связи, способности к борьбе с мошенничеством и масштабируемости генерации развертывания стратегий. Создание виртуальной среды становится настоящей хардкорной предпринимательской задачей, а не просто побочным проектом. Если агент должен быть обучен в условиях, близких к производственным, то сама среда является частью основного технологического стека.

  1. Следующая передовая область: более практическое мышление

Мои личные ожидания заключаются в том, что агентное мышление станет доминирующей формой мышления в будущем. Я считаю, что оно в конечном итоге заменит большинство устаревших «статичных монологов» рассуждающего мышления — то есть, тех, которые чрезмерно длинные, изолированные и закрытые, пытаясь скрыть отсутствие интерактивных возможностей внутренними траекториями. Даже когда сталкиваются с крайне сложными математическими или кодировочными задачами, действительно продвинутая система должна обладать правом на поиск, моделирование, выполнение, проверку, верификацию и модификацию. Наша конечная цель — надежно и эффективно решать реальные проблемы.

Главная проблема при обучении таких систем заключается в «мошенничестве с вознаграждением» (reward hacking). Как только модель получает реальный доступ к инструментам, мошенничество с вознаграждением становится крайне разрушительным. Модель с доступом к поисковым функциям может во время обучения RL напрямую научиться искать ответы в интернете. Кодирующий агент может использовать нераскрытую будущую информацию из библиотеки кода, злоупотребить логами или найти какой-то способ, который делает задачу неактуальной. Среда с скрытыми уязвимостями может заставить стратегии модели выглядеть выдающимися, но на самом деле просто обучит ее быть мастером мошенничества. В отличие от эпохи рассуждений, ситуация в эпоху агентов более тонкая и опасная. Более мощные инструменты делают модель более полезной, но также значительно увеличивают атакующие поверхности для ложной оптимизации. Мы вполне можем предвидеть, что следующим серьезным научным узким местом станет проектирование окружающей среды, устойчивость оценщиков, протоколы борьбы с мошенничеством и установление более нормативных интерфейсных стандартов между стратегиями и физическим миром. Несмотря на все трудности, направление остается неизменным: мышление, поддерживаемое инструментами, по своей сути более ценное, чем мышление, созданное в замкнутом пространстве, и более вероятно, что оно приведет к реальному скачку производительности.

Агентное мышление также означает восход «инженерии поддерживающей структуры» (harness engineering). Будущее основной интеллекта будет все больше зависеть от способов совместной организации нескольких агентов: центральный оркестратор, отвечающий за планирование и распределение задач, специализированные агенты, играющие роль экспертов в области, и подагенты, отвечающие за выполнение вертикально сегментированных задач (они не только работают, но и помогают контролировать контекст, избегать загрязнения памяти и поддерживать физическую изоляцию между различными уровнями мышления). Будущее индустрии движется от обучения моделей к обучению агентов, и, в конечном итоге, к обучению огромных систем.

Заключение

Первая волна рассуждений установила железное правило: если сигналы обратной связи достаточно надежны и инфраструктура выдерживает, то наложение обучения с подкреплением на языковые модели может привести к качественно новым когнитивным способностям.

А более глубокий переход в индустрии происходит от «рассуждающего мышления» к «агентному мышлению»: от простого размышления к мышлению для действия. Основная цель обучения уже сместилась. Это больше не только модель, а «модель + среда» как симбиотическая система, более конкретно, это агенты и их поддерживающие структуры. Это полностью перевернуло наше понимание «основного исследовательского продукта»: архитектура модели и обучающие данные, безусловно, важны, но проектирование среды, инфраструктура для развертывания стратегий, устойчивость оценщиков к помехам и базовые интерфейсы для совместной работы агентов будут повышены до равного или даже более высокого уровня. Это также переопределяет, что такое «хорошее мышление»: действительно «хорошее» означает, что при различных ограничениях реального мира наиболее эффективно поддерживает действия, а не просто соревнование о том, кто генерирует самый длинный текст или чье вычисление наиболее заметно.

Это также меняет логику конкурентных преимуществ будущего в бизнесе. В эпоху рассуждений, у кого есть лучшие алгоритмы RL, более чистые сигналы обратной связи и более масштабируемые потоки обучения, тот и победит. А в эпоху агентов, решающим козырем станет наличие более реалистичной среды, более плавной архитектуры «обучения-рассуждения», более мощных инженерных способностей и умение наиболее эффективно закрывать важнейший обратный цикл между «принятием решений моделью» и «реальными последствиями этих решений».

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$2.25KДержатели:1
    0.00%
  • РК:$2.26KДержатели:1
    0.00%
  • РК:$2.34KДержатели:1
    1.57%
  • РК:$2.36KДержатели:3
    0.80%
  • РК:$2.25KДержатели:1
    0.00%
  • Закрепить