几年前,我们曾和一些顶尖的 AI 研究者交流,他们告诉我们,自己的终极目标是 AGI。出于好奇,也带着一点天真,我们追问了一句:你们到底怎么定义 AGI?
他们沉默了一下,彼此对视,略显犹豫,随后给出了一个后来几乎成了行业“口头禅”的回答:每个人心里都有自己的定义,但当它出现的时候,我们会知道的。
这个小插曲,恰恰概括了人类对 AGI 的长期追寻。一个清晰、统一、可落地的定义,一直难以捉摸。
但定义模糊,并不代表现实不存在。恰恰相反,AGI 已经来了,就在当下。
编码智能体是第一个明显的例子,而且只是开始。更多形态,正在路上。
具备长时间持续执行能力的智能体,在功能层面上已经等同于 AGI,而 2026 年,将是它们真正爆发的一年。
在继续之前,有一点需要说明。我们并不具备为 AGI 提出“权威技术定义”的道德或学术资格。
我们是投资人。我们研究市场,研究创业者,以及两者的交汇点:商业。美股大数据 StockWe.com
因此,我们关心的是功能层面的定义,而不是技术层面的定义。每当一项新技术出现,都绕不开 Don Valentine 那个经典问题:那又怎样?
答案只存在于真实世界的影响之中。
在我们看来,AGI 的功能性定义其实极其简单。
AGI,就是把事情想明白、做成的能力。
我们当然知道,这样的定义无法终结任何哲学争论。但在现实中,如果你真想把一件事做好,你到底需要什么?你需要的不是一套漂亮的理论,而是一个能把事情搞定的 AI。至于它是怎么做到的,远没有“它真的做到了”重要。
一个能把事情想明白的人,通常具备三样东西:基础知识、基于这些知识进行推理的能力,以及不断试错、迭代直到找到答案的能力。
一个能把事情想明白的 AI,也同样如此。它有基础知识,也就是预训练;它有推理能力,也就是推理阶段的算力;它还有持续迭代的能力,也就是长时程智能体。
第一步,知识的积累,点燃了 2022 年 ChatGPT 的时刻。第二步,推理能力的增强,出现在 2024 年底 o1 模型的发布中。第三步,也就是持续迭代、长时间自主执行的能力,则是在最近几周,随着 Claude Code 等编码智能体跨过能力门槛而真正出现。
真正聪明的人,可以在没有他人指令的情况下,连续几个小时自主工作,犯错、修正、继续推进,并判断下一步该做什么。现在,真正聪明的智能体,也开始具备这种能力了。这是全新的变化。
那么,什么叫“把事情想明白”?
想象这样一个场景。一位创业者给自己的智能体发了一条消息:我需要一个开发者关系负责人。技术要足够强,能赢得高级工程师的尊重,同时又真的喜欢混 Twitter。我们卖的是平台级产品,你去找。
智能体先从最直观的路径开始,在 LinkedIn 上搜索竞争公司里挂着 Developer Advocate 或 DevRel 头衔的人,Datadog、Temporal、LangChain,一共找出几百个。但它很快意识到,职位名称并不能说明谁真的擅长这份工作。
于是它转向信号,而不是履历。它去 YouTube 上搜索技术大会演讲,筛选出五十多位讲者,再根据观看量和互动情况进行过滤。
接着,它把这些人和 Twitter 账号交叉比对。一半的人账号几乎不活跃,或者只是机械转发公司博客,这显然不符合要求。但其中有十几个人,真的有开发者在和他们互动。他们发表真实观点,参与讨论,而且内容有品味。
美股投资网获悉,智能体进一步缩小范围,查看这些人过去三个月的发帖频率。有时,活跃度下降意味着对当前工作的倦怠。最终,它锁定了三个人。
接下来是深度调查。一个人刚刚官宣新职位,排除。一个人是刚融资的创业公司创始人,不可能离开。第三个人,是一家 D 轮公司的高级 DevRel,该公司刚裁掉了市场团队。她最近一次演讲,正好聚焦在这家初创公司所瞄准的平台工程领域。她在 Twitter 上有一万四千名粉丝,还会发工程师真正会点赞的梗图。她的 LinkedIn 已经两个月没更新了。
智能体随后起草了一封邮件,提到了她最近的演讲内容,指出与目标客户画像的高度重合,并强调在小团队中能获得的创作自由。这不是一封推销信,而是一封邀请随意聊聊的私信。
整个过程,用时三十一分钟。创业者得到的不是一个挂在招聘网站上的职位描述,而是一个高度匹配的候选人。
这就是“把事情想明白”。在不确定性中推进目标,提出假设,验证假设,走入死胡同,再及时转向,直到某个关键点被点亮。智能体没有照本宣科,它只是运行了一个优秀招聘官在大脑中反复运行的循环,只不过,它不知疲倦,而且只用了三十一分钟。
当然,必须坦率地说,智能体依然会失败。它们会幻觉,会丢失上下文,有时还会极其自信地一路走向完全错误的方向。但趋势已经非常清晰,而且这些失败,正在快速变得可修复。
我们是如何走到这一步的?从推理模型,到长时程智能体。
在去年的文章中,我们曾指出,推理模型是 AI 最重要的新前沿。而长时程智能体,则是在此基础上的进一步演进,它们让模型不仅能思考,还能持续行动,并在时间中不断迭代。
让模型“多想一会儿”,并不简单。基础的推理模型,通常只能思考几秒或几分钟。
目前有两条技术路线,似乎都在奏效,而且扩展性很好。一条是强化学习,通过在训练中不断约束和引导,让模型学会长时间保持目标和专注。另一条是智能体框架设计,通过外部结构来弥补模型的已知短板,比如记忆交接、信息压缩等。
强化学习的规模化,主要发生在大型研究实验室中。从多智能体系统到可靠的工具使用,它们已经取得了惊人的进展。
而优秀的智能体框架设计,则属于应用层的舞台。今天最受欢迎的一些产品,正是因为它们在这方面做得极其出色,比如 Manus、Claude Code、Factory 的 Droids 等。
如果只能押注一条指数级增长曲线,那一定是长时程智能体的能力。METR 一直在系统性追踪 AI 完成长周期任务的能力,结果显示,这一能力大约每七个月翻一倍。如果沿着这条曲线推演,到 2028 年,智能体将能稳定完成需要人类专家一天时间的任务;到 2034 年,是一年;而到 2037 年,甚至可能是一整个世纪。
那又怎样?
很快,你就能“雇佣”一个智能体。这是判断 AGI 的一个简单标准。
今天,你已经可以雇佣 GPT、Claude、Grok 或 Gemini,而且更多角色正在出现。在医学领域,它们像专科医生;在法律领域,它们像助理律师;在网络安全中,它们像渗透测试员;在 DevOps 中,它们像 SRE;在增长和销售中,它们像 BDR、售前工程师和营收负责人;在招聘中,它们像猎头;在数学中,它们像数学家;在芯片设计中,它们像工程师;在 AI 研究本身,它们已经像研究员。
这对创业者意味着什么?
2023 年和 2024 年的 AI 应用,本质上是“会说话的人”。有些确实非常健谈,但影响有限。
2026 年和 2027 年的 AI 应用,将是“干活的人”。它们更像同事。使用频率将从一天几次,变成全天候运行,甚至同时运行多个实例。用户不再只是节省零碎时间,而是从一个独立贡献者,变成管理一支智能体团队。
过去我们总说在“卖效率”“卖时间”。现在,开始真正卖“工作本身”了。
你能完成什么样的工作?长时程智能体所带来的能力,和一次模型推理完全不同。在你的行业中,哪些任务真正需要持续专注?哪些瓶颈来自时间跨度,而不是瞬时智能?
你要如何把这些工作产品化?当工作界面的形态,从聊天框进化为任务委派,你的产品应该长什么样?
你能否稳定地完成这些工作?你是否在极度专注地打磨你的智能体框架?是否建立了足够强的反馈回路?
你又该如何定价和销售这些成果,真正围绕价值和结果来设计商业模式?
是时候上马了。
长时程智能体的指数曲线,已经启动。
今天,它们也许只能稳定工作三十分钟。但很快,它们就能完成一天的工作,最终,甚至是一整个世纪的工作。
当你的规划单位变成“世纪”,你能做成什么?一个世纪,是二十万项从未被交叉分析过的临床试验;一个世纪,是所有客户支持工单被完整挖掘后的洞察;一个世纪,是整个美国税法,被重新整理为一个真正连贯的系统。
那个最激进的路线图,刚刚变成了现实可行的版本。












