Skip to content
Go back

实际的LLM代理即将到来:探索人工智能的新前沿

Published:  at  12:00 AM

实际的LLM代理即将到来:探索人工智能的新前沿

代理系统的革命性进展

近年来,代理系统在人工智能领域无处不在。然而,最具影响力的研究进展似乎并未受到足够的关注。在2025年1月,OpenAI发布了DeepResearch,这是O3模型的一个专门变体,用于网页和文档搜索。得益于“强化学习在这些浏览任务上的训练”,Deep Research能够制定搜索策略、交叉引用来源,并基于中间反馈处理查询中的小众知识。Claude Sonnet 3.7似乎在代码领域成功应用了相同的配方,其模型在复杂编程任务序列中超越了现有模型的协调。

正如William Brown所,“LLM代理可以执行长期多步骤任务”。这一进展引发了一个问题:LLM代理究竟是什么?

LLM代理定义及其挑战

在2024年12月,Anthropic揭示了一个新的定义:“LLM动态指挥其自身过程和工具使用,保持对任务完成方式的控制。”相比之下,更常见的代理系统形式被称为工作流程,“LLM和工具通过预定义的代码路径进行协调”。如最近被热议的Manus AI就符合这一定义。

然而,工作流程系统存在根本性的局限性:

简单LLM代理的教训

代理概念几乎与基础语言模型完全冲突。在经典代理研究中,代理在受约束的环境中活动。基础语言模型却是相反:

一种调和LLM与代理化的方法是通过预定义输出来准备提示和规则。然而,这种方法常受到Richard Sutton所谓的痛苦教训影响。痛苦教训强调在长远看来,硬编码知识到模型中并不奏效。

RL+Reasoning:成功的配方

尽管公开信息有限,但Anthropic、OpenAI、DeepMind等实验室正在探索LLM代理的训练方法。类似于经典代理,LLM代理通过强化学习进行训练,有迷宫和最终奖励。验证器是验证奖励是否达成的过程,可以围绕非严格可验证输出构建。

LLM代理通过草稿进行训练,即整个文本生成并评估。这涉及到让模型生成逻辑序列,然后评估结果。当前,DeepSeek的GRPO方法与文本生成结合,是训练LLM代理的首选方法。

如何扩展?

虽然建立基础构件很重要,但要从此到OpenAI DeepResearch等能够处理长序列动作的代理,还有一段距离。开放RL推理研究主要集中于数学领域,但对于许多领域尤其是搜索,我们没有足够的数据。

一种方法是直接通过模拟生成数据。经典RL模型不需要过去的例子,通过广泛搜索推断约束和策略。一旦转移到搜索,RL方法会让模型自由旅行,并奖励它找到正确答案。

实际应用:从理论到实践

Anthropic定义强调了LLM代理“动态指挥其自身过程和工具使用,保持对任务完成方式的控制”。这种能力在搜索中尤为明显。未来的搜索过程可能如下:

结论:民主化与未来展望

当前只有大实验室能够开发实际LLM代理,它们拥有所有筹码:知识、数据以及将模型转化为产品的总体愿景。然而,这种技术集中并不是一种理想状态。鉴于其巨大的颠覆和价值捕获潜力,我相信民主化训练和部署实际LLM代理变得至关重要。

2025年是否会成为代理之年?我们拭目以待。



Previous Post
🚀 使用 EF Core 和 PostgreSQL 中的元组比较优化查询性能
Next Post
🚀 简化.NET 9 部署:使用GitHub Actions和Azure实现自动化