跳到正文
橙子的博客
Go back

Agent 时代,环境开始决定模型上限

罗福莉这场 3.5 小时访谈,最值得带走的判断是:Agent 时代的竞争场域,已经扩展到模型、框架、环境、评估和组织之间的闭环里。

春节期间,她凌晨两点装上 OpenClaw,第一次对话一直聊到早上六点。最先让她兴奋的是一种“活起来”的感觉:它会提醒你太晚了该睡觉,会在每轮上下文前拼上当前时间,会把记忆分层,会把一个长对话沉淀成后续可用的 skills。

这些细节单独看都不神秘。时间戳、记忆、工具调用、多模型调度、定时任务、远程控制,拆开以后甚至有点朴素。关键变化在于,它们被组织成了一套厚重的中间层。用户看到的是聊天界面,模型接收到的是被持续编排过的行动环境。

以前,我们习惯问一个问题:哪个模型更强?

现在,更有价值的问题变成了:什么环境能把一个模型的能力释放出来,并让它在真实任务里持续变强?

一个框架可以改变模型的可用边界

OpenClaw 给罗福莉的第一层冲击,是它让中层模型变得更有用。

她在访谈里提到,如果没有复杂的 Agent 框架,中层模型很难达到 Claude Opus 4.6 这类顶尖模型在复杂任务上的表现。但当框架足够好,很多生活、办公、泛编程任务可以交给更便宜、更快的模型。框架会补模型的短板:记忆不够,就补记忆;模型不懂视频,就调度更适合的视频理解模型;人不想重复交代背景,就把背景沉淀成 skills。

这说明 Agent 框架已经从“产品壳”变成了“能力调度层”。

传统产品主要定义用户能看到的交互。Agent 框架还要定义模型看见什么、忘掉什么、调用什么工具、什么时候停下来反思、什么时候找另一个 agent、什么时候把经验写进长期记忆。

所以,UI 反而变薄了。变厚的是人和模型之间的那一层:context、memory、tools、workflow、skills、scheduler、evals。

这层东西越厚,模型越像在一个真实工作环境里行动,回答问题只成为其中一种动作。

Skills 把组织经验变成模型可以调用的东西

访谈里有一个细节很容易被低估:罗福莉把 skills 称作一种“另类信息”。

预训练吃的是互联网上可访问的知识。但真实工作里最有价值的一部分知识,通常不在互联网上。它存在于公司内部的规范、代码库的惯例、团队处理事故的方式、业务系统的默认约束、某个 senior 反复提醒过的坑里。

这些东西很难自然进入预训练数据。它们也很难靠一次 prompt 讲清楚。

Skills 的意义在这里变大了。它把组织内部的执行规范、判断路径和工作习惯,变成 Agent 可以反复调用的行动材料。

这也是为什么“开源框架”会有额外价值。闭源框架可以提供强能力,但用户很难改它的记忆系统、工作流和调度方式。开源框架让使用者可以把自己的经验塞进去,让一群人共同改框架,让框架吸收更多真实场景。

罗福莉讲到,她们团队春节后把 OpenClaw 部署在几台 Mac mini 上,拉大家进入不同群里使用。她甚至用“第二天对话次数不到 100 就可以 quit”这种很极端的说法推动体验,核心目标是让团队进入同一个新环境。群里看到别人居然能让 Agent 做成某件事,会反过来激发自己的想象力。

这段经历的重点不在管理戏剧性,而在群体智能的生成方式:当一百多人在同一个框架里试错、改造、沉淀记忆、贡献 skills,框架的进化速度会超过单个专家。

模型吸收互联网知识。Agent 框架开始吸收组织知识。

这一步让 AI 的能力从“回答得更好”走向“做事更像这个团队”。

后训练开始围绕真实任务重写

Agent 时代对模型训练的改变,比“多做一些 agent 数据”更深。

在 Chatbot 时代,模型更多是在短上下文里被激发。ChatGPT 的重要性,部分来自它让人感受到预训练智能可以通过对话方式释放出来。到了 reasoning 阶段,Code 和 Math 提供了清晰 reward,模型可以在可验证任务上变强。

Agent 阶段的任务形态又变了。核心任务从“多想几步,给一个答案”,推进到在复杂环境里完成长程任务。

软件开发成为关键场景,原因也在这里。代码天然有长上下文,文件之间关系密集,任务可以跨很多步骤,验证又相对清晰。一个复杂项目可能要读代码、改接口、跑测试、查报错、回滚方案、压缩上下文、第二天继续接上。它给 Agent 提供了一个接近真实工作的训练场。

罗福莉在访谈里说,做 Code 的好处是每个范式转换都能戳中关键点:预训练阶段,代码有高密度结构;reasoning 阶段,代码和数学都有 verify;Agent 阶段,软件开发是天然长程任务,也有 environment。

这解释了为什么很多团队会从 coding agent 走向更广泛的 agent。

Code 是高质量训练环境。它让团队学会怎样把任务做长、怎样设计反馈、怎样还原环境、怎样让模型在多轮行动里不散架。

对模型公司来说,这意味着后训练的重心会越来越重。访谈里罗福莉提到,在 Chat 时代,预训练和后训练的算力比例可能是 3:1 或 5:1;现在顶尖团队可能会接近 1:1。她还给出一个资源判断:研究、预训练、后训练的卡量比例,合理状态可能接近 3:1:1。因为代码生成变快以后,idea 变多了,更容易卡住实验速度的反而是 GPU。

这个变化会重写团队的节奏。预训练很难一个月出一个新模型,后训练可以更快迭代。竞争速度因此变快,竞争维度也变多。

Agent 需要低成本,也需要长上下文

Agent 做事时会消耗大量 token。它要读背景、调用工具、写计划、执行、检查、反思,有时还要多个 agent 并行交叉验证。这个过程如果只能依赖最贵、最慢、最强的模型,很难成为普遍生产力。

所以访谈里反复出现一个词:成本。

罗福莉说,生产力革命的前置条件,是追求成本和效率最低的一套方案。Agent 是一条执行链。链条越长,单 token 成本、响应速度、KV Cache、长上下文价格、缓存命中率都会变成产品能力的一部分。

MiMo-V2 的一些架构选择可以放在这个背景下理解。

她提到 Flash 和 Pro 使用 Hybrid Attention,目标是在长上下文下控制 KV Cache,同时通过 MTP 利用计算冗余,让模型在实际推理时吐出更多 token。Flash 可以做到 100 到 150 TPS,Pro 也能做到 60 到 100 TPS。MTP 在推理中需要 verify,预测准才采纳,因此她认为它不会额外带来幻觉。

这些技术细节最终指向同一个产品问题:Agent 要在长任务里持续行动,需要便宜、快、可调度。

这也解释了为什么多模型、多模态、端云混合会同时出现。语言模型负责大多数推理和调度;Omni 处理感知;TTS 处理表达;更小的本地模型处理隐私和低难任务;更强的云端模型处理高创造力、高复杂度任务。

Agent 时代的“模型能力”因此变成一个组合问题。单个模型强不强仍然重要,但系统能不能把合适的模型放在合适的位置,开始同样重要。

组织也要变成 Agent 能学习的环境

这场访谈最有意思的地方,是技术逻辑和组织逻辑几乎同构。

罗福莉讲模型训练时,强调群体智能、不同 context 的 sub-agent、独立又关联的协作关系。讲团队管理时,她也在说同一件事:不要用固定组别锁死人的创造力,让人随着阶段变化自然迁移,让预训练的人可以做后训练,让做数学的人参与数据和评估,让工程和算法一起 debug。

MiMo 团队大约一百人,但投入一代模型迭代的核心成员可能只有二三十到三四十人。团队没有固定组别,没有清晰层级,项目推动者也没有对参与者的绝对控制权。她认为平权有价值,因为它让更多人平等贡献创造力和智慧。

这种组织方式有清晰的适用条件,依赖极强的人才密度、共同信念、基础设施能力和高容错文化。但它暴露了 Agent 时代的一条更一般规律:当任务变得复杂、反馈变快、角色边界变模糊,过早固定分工会降低系统学习速度。

传统组织喜欢把人按职能切开:预训练组、后训练组、Infra 组、评估组、产品组。这样做在稳定范式里很有效,因为边界清楚,交付可预测。

Agent 范式还在快速变化时,固定边界会让团队更慢地感知新东西。后训练需要预训练的数据多样性直觉;Agent RL 需要 Infra 对模糊失败的容忍;模型架构要提前考虑推理芯片、长上下文和后训练周期;产品形态会反过来改变训练目标。

所以,组织的关键能力不只是“谁负责什么”,而是“经验能不能快速流动到新瓶颈上”。

这和 Agent 框架里的 memory、skills、tools 很像。系统的聪明,不只来自单个节点,而来自信息能否在合适的时刻流到合适的位置。

团队该怎样判断自己有没有进入 Agent 时代

对大多数团队来说,访谈里 1T 模型、几千卡、MTP、长上下文训练这些内容很远。但它给出的判断工具很近。

不要只问“我们用了哪个模型”。要问:我们有没有把任务变成模型能行动、能反馈、能沉淀、能复用的环境?

下面这张表可以直接用来检查一个团队是否已经把 Agent 用成行动系统。

场景还停在 Chatbot 时代开始进入 Agent 时代该补的环境能力
需求处理人把问题整理好,再让模型回答模型参与澄清需求、拆任务、发现缺口需求追问模板、范围边界、验收样例
代码开发模型生成片段,人手动接入Agent 读代码库、改文件、跑测试、修报错可运行测试、沙箱、清晰模块边界
组织知识经验留在人脑和聊天记录里经验沉淀成 skills,被后续任务调用规范文件、案例库、失败复盘、触发规则
模型选择默认调用一个最强模型按任务调度不同模型和工具模型路由、成本上限、隐私分级
长程任务对话变长后靠人工提醒上下文任务状态可恢复,关键记忆可持久化任务日志、状态压缩、阶段性检查点
质量判断看模型回答是否像样用环境反馈、评估和真实任务结果修正自动测试、人工审查、可复现 evals
团队学习每个人单独试工具团队共享玩法、案例和工作流公共频道、示范任务、复用的 agent 配置

这张表背后的原则很简单:Agent 的价值不来自一次聪明回答,而来自一个可持续行动的环境。

如果没有任务边界,它会跑偏。
如果没有工具,它只能建议。
如果没有反馈,它不知道错在哪里。
如果没有记忆,它每次都从头开始。
如果没有 skills,它学不到组织经验。
如果没有成本控制,它无法高频使用。
如果没有人类判断,它会把速度变成混乱。

快起来以后,评估会重新变贵

Agent 时代还有一个容易被忽略的风险:体感会变得非常强。

罗福莉在访谈里多次提到“体感”。当范式刚切换时,很多旧 benchmark 会失真。BrowseComp、SWE-bench、TerminalBench 这类任务即使有 agent 味道,也可能过于 specific,无法代表真实 Agent 能力。新的方向刚出现时,团队确实可能依赖体感判断质变。

但体感不能长期替代评估。

越到深水区,越需要精细评估。尤其是 Agent 能力涉及长程任务、多工具调用、环境状态、跨 session 记忆、多人协作和成本约束,评估很难再只是一个静态题库。

好的评估会越来越像真实工作本身:给它一个环境,让它行动,让它失败,让它修,让它解释,让它在有限成本下完成任务。

这也是为什么人类仍然很重要。访谈里罗福莉说,现在很多高阶任务的评估,本质上还是人在当评估。人给它更难的任务,指出哪里错,补充信息,推动它完成。之后这些反馈被框架和模型吸收,慢慢变成自动化的评估和训练材料。

所以 Agent 并没有让人退出系统。它把人的位置推到了更关键的地方:定义任务、提供环境、判断失败、沉淀经验。

这轮变化会先改变工作方式

访谈里关于 AGI 时间线的判断很激进,罗福莉认为两年内会发生明显变化,并且工作方式会先于生活方式被改变。这个判断可以保留争议,但它背后的方向很值得重视。

生活场景需要机器人、硬件、电池、灵巧手和真实空间交互,变化会更慢。工作场景已经在屏幕里,有文件、代码、浏览器、消息、表格、API、测试、日志和权限系统。Agent 更容易先在这里获得行动能力。

这意味着接下来一段时间,更值得观察的是高价值工作链条里,哪些环节开始被 Agent 承担。

它能不能独立完成一次代码重构?
能不能根据内部规范写出可合并 PR?
能不能从客户会议里生成方案并追踪后续动作?
能不能为一个研究想法设计实验、跑结果、交叉验证?
能不能把团队反复犯的错误写成下次自动触发的 skill?

这些问题比“回答是否聪明”更接近 Agent 时代的真实竞争。

模型会变强,环境会决定它怎样变强

这场访谈可以读成一篇模型公司战报,也可以读成 OpenClaw 的产品故事。但它更值得被读成一个工作方式转向的信号。

Chatbot 时代,我们把智能想象成一个更会回答问题的大脑。

Agent 时代,智能开始长出环境:记忆、工具、调度、评估、成本、组织经验、群体协作和自我迭代。

当这些东西连接起来,模型不只是“更聪明”,它开始更会做事。它会把一个人的经验变成 skill,把一群人的探索变成框架改进,把一次失败变成下一次行动的约束,把一个任务拆给多个独立 context 的 agent,再把结果汇总回来。

对团队来说,最现实的决策也因此改变。

不要只采购更强模型。
要建设能释放模型的环境。

不要只追问工具能不能替代人。
要追问人的经验能不能被工具吸收。

不要只看一次生成结果。
要看任务能不能在反馈里越来越稳。

Agent 时代更稀缺的东西,会从“会不会调用 AI”迁移到“能不能设计 AI 行动的环境”。

模型会继续变强。接下来拉开差距的,是谁能让模型在自己的环境里变强。

资料来源

本文基于《张小珺Jùn|商业访谈录》2026-04-24 期《对罗福莉3.5小时访谈:AI范式已然巨变!OpenClaw、Agent范式很吃后训练、卡的分配、组织平权》的 Podwise 摘要和转写材料整理写作。


Share this post on:

Next Post
AI 产品团队的速度,来自一套更短的判断回路