实际的LLM代理即将到来：探索人工智能的新前沿

代理系统的革命性进展

近年来，代理系统在人工智能领域无处不在。然而，最具影响力的研究进展似乎并未受到足够的关注。在2025年1月，OpenAI发布了DeepResearch，这是O3模型的一个专门变体，用于网页和文档搜索。得益于“强化学习在这些浏览任务上的训练”，Deep Research能够制定搜索策略、交叉引用来源，并基于中间反馈处理查询中的小众知识。Claude Sonnet 3.7似乎在代码领域成功应用了相同的配方，其模型在复杂编程任务序列中超越了现有模型的协调。

正如William Brown所言，“LLM代理可以执行长期多步骤任务”。这一进展引发了一个问题：LLM代理究竟是什么？

LLM代理定义及其挑战

在2024年12月，Anthropic揭示了一个新的定义：“LLM动态指挥其自身过程和工具使用，保持对任务完成方式的控制。”相比之下，更常见的代理系统形式被称为工作流程，“LLM和工具通过预定义的代码路径进行协调”。如最近被热议的Manus AI就符合这一定义。

然而，工作流程系统存在根本性的局限性：

无法有效规划，常常陷入困境。
记忆能力差，难以维持任务超过5-10分钟。
长期行动效果不佳，动作序列常因复合错误效应而失败。

简单LLM代理的教训

代理概念几乎与基础语言模型完全冲突。在经典代理研究中，代理在受约束的环境中活动。基础语言模型却是相反：

代理记忆其环境，而基础模型只能对上下文窗口内的信息做出反应。
代理受到有限理性的约束，而基础模型生成任何可能的文本。
代理能够制定长期策略，而语言模型只能执行单一推理任务。

一种调和LLM与代理化的方法是通过预定义输出来准备提示和规则。然而，这种方法常受到Richard Sutton所谓的痛苦教训影响。痛苦教训强调在长远看来，硬编码知识到模型中并不奏效。

RL+Reasoning：成功的配方

尽管公开信息有限，但Anthropic、OpenAI、DeepMind等实验室正在探索LLM代理的训练方法。类似于经典代理，LLM代理通过强化学习进行训练，有迷宫和最终奖励。验证器是验证奖励是否达成的过程，可以围绕非严格可验证输出构建。

LLM代理通过草稿进行训练，即整个文本生成并评估。这涉及到让模型生成逻辑序列，然后评估结果。当前，DeepSeek的GRPO方法与文本生成结合，是训练LLM代理的首选方法。

如何扩展？

虽然建立基础构件很重要，但要从此到OpenAI DeepResearch等能够处理长序列动作的代理，还有一段距离。开放RL推理研究主要集中于数学领域，但对于许多领域尤其是搜索，我们没有足够的数据。

一种方法是直接通过模拟生成数据。经典RL模型不需要过去的例子，通过广泛搜索推断约束和策略。一旦转移到搜索，RL方法会让模型自由旅行，并奖励它找到正确答案。

实际应用：从理论到实践

Anthropic定义强调了LLM代理“动态指挥其自身过程和工具使用，保持对任务完成方式的控制”。这种能力在搜索中尤为明显。未来的搜索过程可能如下：

分析查询、分解并进行假设。
如果查询不明确，用户可能立即得到提示。
模型可以立即进行专业化资源搜索。
搜索序列经过学习和训练。
步骤和过程作为内部推理轨迹记录。

结论：民主化与未来展望

当前只有大实验室能够开发实际LLM代理，它们拥有所有筹码：知识、数据以及将模型转化为产品的总体愿景。然而，这种技术集中并不是一种理想状态。鉴于其巨大的颠覆和价值捕获潜力，我相信民主化训练和部署实际LLM代理变得至关重要。

2025年是否会成为代理之年？我们拭目以待。