怎么才能算是AGI人工智能？

2026-01-19

几年前，我们曾和一些顶尖的 AI 研究者交流，他们告诉我们，自己的终极目标是 AGI。出于好奇，也带着一点天真，我们追问了一句：你们到底怎么定义 AGI？

他们沉默了一下，彼此对视，略显犹豫，随后给出了一个后来几乎成了行业“口头禅”的回答：每个人心里都有自己的定义，但当它出现的时候，我们会知道的。

这个小插曲，恰恰概括了人类对 AGI 的长期追寻。一个清晰、统一、可落地的定义，一直难以捉摸。

但定义模糊，并不代表现实不存在。恰恰相反，AGI 已经来了，就在当下。

编码智能体是第一个明显的例子，而且只是开始。更多形态，正在路上。

具备长时间持续执行能力的智能体，在功能层面上已经等同于 AGI，而 2026 年，将是它们真正爆发的一年。

在继续之前，有一点需要说明。我们并不具备为 AGI 提出“权威技术定义”的道德或学术资格。

我们是投资人。我们研究市场，研究创业者，以及两者的交汇点：商业。美股大数据 StockWe.com

因此，我们关心的是功能层面的定义，而不是技术层面的定义。每当一项新技术出现，都绕不开 Don Valentine 那个经典问题：那又怎样？

答案只存在于真实世界的影响之中。

在我们看来，AGI 的功能性定义其实极其简单。

AGI，就是把事情想明白、做成的能力。

我们当然知道，这样的定义无法终结任何哲学争论。但在现实中，如果你真想把一件事做好，你到底需要什么？你需要的不是一套漂亮的理论，而是一个能把事情搞定的 AI。至于它是怎么做到的，远没有“它真的做到了”重要。

一个能把事情想明白的人，通常具备三样东西：基础知识、基于这些知识进行推理的能力，以及不断试错、迭代直到找到答案的能力。

一个能把事情想明白的 AI，也同样如此。它有基础知识，也就是预训练；它有推理能力，也就是推理阶段的算力；它还有持续迭代的能力，也就是长时程智能体。

第一步，知识的积累，点燃了 2022 年 ChatGPT 的时刻。第二步，推理能力的增强，出现在 2024 年底 o1 模型的发布中。第三步，也就是持续迭代、长时间自主执行的能力，则是在最近几周，随着 Claude Code 等编码智能体跨过能力门槛而真正出现。

真正聪明的人，可以在没有他人指令的情况下，连续几个小时自主工作，犯错、修正、继续推进，并判断下一步该做什么。现在，真正聪明的智能体，也开始具备这种能力了。这是全新的变化。

那么，什么叫“把事情想明白”？

想象这样一个场景。一位创业者给自己的智能体发了一条消息：我需要一个开发者关系负责人。技术要足够强，能赢得高级工程师的尊重，同时又真的喜欢混 Twitter。我们卖的是平台级产品，你去找。

智能体先从最直观的路径开始，在 LinkedIn 上搜索竞争公司里挂着 Developer Advocate 或 DevRel 头衔的人，Datadog、Temporal、LangChain，一共找出几百个。但它很快意识到，职位名称并不能说明谁真的擅长这份工作。

于是它转向信号，而不是履历。它去 YouTube 上搜索技术大会演讲，筛选出五十多位讲者，再根据观看量和互动情况进行过滤。

接着，它把这些人和 Twitter 账号交叉比对。一半的人账号几乎不活跃，或者只是机械转发公司博客，这显然不符合要求。但其中有十几个人，真的有开发者在和他们互动。他们发表真实观点，参与讨论，而且内容有品味。

美股投资网获悉，智能体进一步缩小范围，查看这些人过去三个月的发帖频率。有时，活跃度下降意味着对当前工作的倦怠。最终，它锁定了三个人。

接下来是深度调查。一个人刚刚官宣新职位，排除。一个人是刚融资的创业公司创始人，不可能离开。第三个人，是一家 D 轮公司的高级 DevRel，该公司刚裁掉了市场团队。她最近一次演讲，正好聚焦在这家初创公司所瞄准的平台工程领域。她在 Twitter 上有一万四千名粉丝，还会发工程师真正会点赞的梗图。她的 LinkedIn 已经两个月没更新了。

智能体随后起草了一封邮件，提到了她最近的演讲内容，指出与目标客户画像的高度重合，并强调在小团队中能获得的创作自由。这不是一封推销信，而是一封邀请随意聊聊的私信。

整个过程，用时三十一分钟。创业者得到的不是一个挂在招聘网站上的职位描述，而是一个高度匹配的候选人。

这就是“把事情想明白”。在不确定性中推进目标，提出假设，验证假设，走入死胡同，再及时转向，直到某个关键点被点亮。智能体没有照本宣科，它只是运行了一个优秀招聘官在大脑中反复运行的循环，只不过，它不知疲倦，而且只用了三十一分钟。

当然，必须坦率地说，智能体依然会失败。它们会幻觉，会丢失上下文，有时还会极其自信地一路走向完全错误的方向。但趋势已经非常清晰，而且这些失败，正在快速变得可修复。

我们是如何走到这一步的？从推理模型，到长时程智能体。

在去年的文章中，我们曾指出，推理模型是 AI 最重要的新前沿。而长时程智能体，则是在此基础上的进一步演进，它们让模型不仅能思考，还能持续行动，并在时间中不断迭代。

让模型“多想一会儿”，并不简单。基础的推理模型，通常只能思考几秒或几分钟。

目前有两条技术路线，似乎都在奏效，而且扩展性很好。一条是强化学习，通过在训练中不断约束和引导，让模型学会长时间保持目标和专注。另一条是智能体框架设计，通过外部结构来弥补模型的已知短板，比如记忆交接、信息压缩等。

强化学习的规模化，主要发生在大型研究实验室中。从多智能体系统到可靠的工具使用，它们已经取得了惊人的进展。

而优秀的智能体框架设计，则属于应用层的舞台。今天最受欢迎的一些产品，正是因为它们在这方面做得极其出色，比如 Manus、Claude Code、Factory 的 Droids 等。

如果只能押注一条指数级增长曲线，那一定是长时程智能体的能力。METR 一直在系统性追踪 AI 完成长周期任务的能力，结果显示，这一能力大约每七个月翻一倍。如果沿着这条曲线推演，到 2028 年，智能体将能稳定完成需要人类专家一天时间的任务；到 2034 年，是一年；而到 2037 年，甚至可能是一整个世纪。

那又怎样？

很快，你就能“雇佣”一个智能体。这是判断 AGI 的一个简单标准。

今天，你已经可以雇佣 GPT、Claude、Grok 或 Gemini，而且更多角色正在出现。在医学领域，它们像专科医生；在法律领域，它们像助理律师；在网络安全中，它们像渗透测试员；在 DevOps 中，它们像 SRE；在增长和销售中，它们像 BDR、售前工程师和营收负责人；在招聘中，它们像猎头；在数学中，它们像数学家；在芯片设计中，它们像工程师；在 AI 研究本身，它们已经像研究员。

这对创业者意味着什么？

2023 年和 2024 年的 AI 应用，本质上是“会说话的人”。有些确实非常健谈，但影响有限。

2026 年和 2027 年的 AI 应用，将是“干活的人”。它们更像同事。使用频率将从一天几次，变成全天候运行，甚至同时运行多个实例。用户不再只是节省零碎时间，而是从一个独立贡献者，变成管理一支智能体团队。

过去我们总说在“卖效率”“卖时间”。现在，开始真正卖“工作本身”了。

你能完成什么样的工作？长时程智能体所带来的能力，和一次模型推理完全不同。在你的行业中，哪些任务真正需要持续专注？哪些瓶颈来自时间跨度，而不是瞬时智能？

你要如何把这些工作产品化？当工作界面的形态，从聊天框进化为任务委派，你的产品应该长什么样？

你能否稳定地完成这些工作？你是否在极度专注地打磨你的智能体框架？是否建立了足够强的反馈回路？

你又该如何定价和销售这些成果，真正围绕价值和结果来设计商业模式？

是时候上马了。

长时程智能体的指数曲线，已经启动。

今天，它们也许只能稳定工作三十分钟。但很快，它们就能完成一天的工作，最终，甚至是一整个世纪的工作。

当你的规划单位变成“世纪”，你能做成什么？一个世纪，是二十万项从未被交叉分析过的临床试验；一个世纪，是所有客户支持工单被完整挖掘后的洞察；一个世纪，是整个美国税法，被重新整理为一个真正连贯的系统。