一篇关于AI Agent设计理念的深度思考

海心 31 次阅读 发布于 16 天前 预计阅读时间: 22 分钟


转至Notion笔记:https://www.notion.so/AI-Agent-1b8a7f4a5af547bfa0cab2a0c82f3496

原文来自:https://mp.weixin.qq.com/s/3DGLUjQ_KP5heVbf3PTTZA

 Datawhale干货 

作者:郭子扬,东南大学研究生

如何实现Agent,业界出现了两种截然不同的技术流派:流程智能化(coze like)和智能体智能化(DeerFlow like)

前者以软件工程的流程编排为核心,通过明确的流程图来驱动大模型完成任务

后者则致力于让单个智能体具备更强的认知与决策能力,以自主探索的方式完成复杂任务

两种路线分别代表了当前大模型应用中执行结构与感知能力的两极探索

也反映了对智能的不同理解:精密可控的流水线 OR 认知驱动的专家?

后文将对比分析这两种设计范式,并探讨Agent在Plan & Reflection、Tool Use、Memory三个方面的将两种范式融合的核心设计

流程智能化:可控的艺术

流程智能化的方法可以看作传统软件工程思想在智能时代的延续

在遥远的BERT时代之前,程序员构建应用时往往先画原型图、流程图,然后按图中每个节点逐步实现功能

有了大模型(如BERT、GPT系列)之后,我们依然可以将模型视作流程图中的节点(或者功能函数),通过编排这些节点让应用变得更加智能

Agent 被嵌入在预先设计好的确定性流程中运作,各步骤、分支在开发时就已经规划完毕,模型仅负责完成相应节点所需的子任务

这种范式的特点是强调整体流程的确定性和可控性。每个组件执行特定功能,数据按固定顺序从一个节点流向下一个节点,如同流水线清晰可预测

即使部分节点内部使用了自生成模型,有不确定性(例如调用LLM生成文本),整个系统仍由事先定义的流程来主导和约束,信息单向流动且步骤固定

优势:流程智能化使智能应用更易于复用、测试和治理。因为每一步都是显式定义的,开发者可以对单个节点进行单元测试,对整条链路做集成测试,从而在部署前就发现并修复问题。

实现特点:流程型 Agent 通常具有结构化的任务表示和可监控的状态演化。整个任务被拆解成若干节点,每个节点职责单一,由上一节点输出驱动下一节点输入。这样的设计带来了若干好处:

  • 明确的执行依赖关系:开发者事先定义好节点之间的先后次序和依赖关系,Agent 严格按照既定依赖执行,不会跳步骤或乱序执行
  • 可预测的状态转换:由于节点转换是确定性的,给定相同输入状态,每次都会产生相同输出,便于调试和验证
  • 支持中断和恢复:流程引擎可以记录每个节点的执行状态,支持出错时暂停流程、修复后从特定节点继续执行,增强健壮性
  • 完整的执行历史追踪:系统能够日志化每一步操作,形成完整的执行轨迹,方便审计和回溯

典型的产品形态如Coze,提供了可视化拖拽节点的界面来编排Agent流程。开发者只需通过拖拉模块并配置参数,就能将大模型能力集成到复杂业务流程中

这种“所见即所得”的流水线搭建方式极大降低了构建智能应用的门槛,让传统软件工程师也能直观地参与 Agent 应用开发

目标很明确:如何以最佳方式编排流程,打造一条精密可控的智能流水线,让每个大模型节点相互配合,完成预定任务

智能体智能化:自主的探索

与流程导向的方法相对,智能体智能化路线试图让单个 Agent 尽可能聪明和自主,以类似人类专家的方式解决问题

这种方法弱化了人工预定义的流程,转而追求让Agent有更强的感知、推理和决策能力,使其在接到用户任务时自行规划、执行并交付结果。可以把这种智能体想象成实习生/研究生,一句话即可调用

智能体智能化依赖于 LLM 强大的上下文理解和生成能力,通过精巧的Prompt Engineering 提供复杂指令,让 Agent 能够进行深度思考、多轮对话、调用工具以及长期记忆等操作,从而提升感知和行动的智能水平

优势:智能体智能化适合解决充满不确定性和创造力的任务(画不出流程图)

比如我做了一个Deep Research,可以接收一个开放性的研究问题,自动去检索资料、多轮阅读和总结,然后产出结构完整的研究报告

在这个过程中,Agent 基于逐步累积的知识做决策,会根据当前掌握的信息动态调整接下来的行动计划,并且在人机协作下不断迭代改进结果。这种灵活性和自适应性是预定义流程难以实现的,也是智能体智能化路线的迷人之处

这种方法本质上是以人为尺度去实现智能:让AI像人一样具备随任务推进而累积知识、调整策略的能力

实现特点:认知驱动的Agent通常以状态驱动的方式运作,即 Agent 能持续感知环境和自身状态的变化,并将其纳入决策考虑,基于上下文来智能决策。具体来说:

  • 全局视野:Agent在执行过程中可以看到完整的对话或操作历史,将前文结果纳入后续推理,使决策建立在整体上下文之上
  • 逐步优化:随着Agent获取更多信息或反馈,其决策会不断优化。例如它可能先提出一个初步方案,然后根据工具执行结果或用户反馈进行反思(reflection),再改进方案,逐步逼近正确答案
  • 动态调整策略:不像固定流程一成不变,Agent可以根据当前情况实时改变策略,比如在某一步发现信息不足就自主增加检索步骤,或在路线行不通时尝试另一方案。这种自适应规划提高了处理复杂任务的成功率
  • 人机协作反馈:智能体可以将人类反馈融入决策回路,比如当用户提示某方向不对时,Agent 调整思路重新尝试。这相当于让Agent从反馈中学习,持续改进自身行为

典型的产品就是DeerFlow,目标:模型即产品。如何提高模型的感知能力、决策能力,使之成为这个领域的专家

这两种设计的背后,其实是对“智能”本质的不同理解:精密可控的流水线 OR 认知驱动的专家

融合之道:构建混合智能架构

无论采用哪种设计理念,Agent 的终极目标都是高质量完成任务

在任务类型上,Agent 更善于处理P类问题(可控、确定性强),而非 NP 类问题(解空间巨大、不可控)

因此,业界大多数方案都会选择线性递进的执行逻辑:先规划出一个稳定的路径,然后按部就班逐步执行,不在运行时动态修改步骤,从而保证任务完成率接近 100%(字节的 deer-flow)

但这种直线型跑道(没有分支和循环)也有明显局限:它虽然稳定,却难以充分发挥Agent的潜力,往往无法深入处理那些需要探索、分支和多角度整合的复杂问题

因此,一个引人关注的设计方向是:赋予 Agent 在规划阶段生成「含分支与合流」的任务执行图,而非单一路径。让 Agent 的计划不止一条直线,而是一个有分支决策点和并行执行的DAG(有向无环图)

这样的设计允许Agent针对复杂问题进行发散-收敛式的探索:先在不同方向上尝试(分支),再将有用的信息汇总整合(合流),从而全面覆盖问题空间

比如RAG的多路召回,每路检索作为一条支线,最后在汇总节点合并

挑战在于:动态规划多分支流程会显著增加系统复杂度和不确定性,需要Agent具备更强的决策能力来权衡选择

Baidu搜索团队提出了“AI Search Paradigm”:设计由四个LLM智能体(Master、Planner、Executor、Writer)构成的模块化架构,由 Planner 根据查询动态生成任务有向图(包含子任务节点和依赖边)https://arxiv.org/pdf/2506.17188

这个 Planner 会综合用户查询和可用工具集,在一次推理中产出完整的任务图,包括需要调用哪些工具、执行哪些子任务以及先后顺序

这样的 DAG 计划将多步推理外化为结构化的任务图,不仅减少了单轮Prompt中需要容纳的信息量,还支持层级并行执行和全流程可追溯

有了这种图结构作为蓝图,系统就能够在执行过程中监控每个分支的进展,并在必要时进行reflection

综上所述,为了既保证任务成功率又不牺牲智能体的探索能力,我们需要在架构上融合确定性流程和自主Agent探索

我将围绕规划与反思(Plan & Reflection)、工具使用(Tool Use)、记忆机制(Memory)三个关键模块展开,介绍如何在设计中实现这一融合,让 Agent 即能按照稳定路线执行,又能在复杂情境下自主调整,真正发挥出大模型的潜力

融****合的蓝图:从“单一路径”到“动态DAG”

“不是多此一举,是保证流程可控与可解释”

这里将Plan & Reflection作为融合的核心引擎。

Plan:根据任务需求产出两份工件

  • Exec DAG(可执行图,给调度器/执行器跑的json):节点的拓扑顺序图(并行/合流策略)+降级/兜底策略(模型/工具集降级)+容错机制(OpenManus的 Agent 的自我感知和处理方案)
  • Task Plan(可读蓝图,给人/反思模块看的markdown/yaml):子任务划分+理由+完成条件(作为 Reflection 的锚点)
  • 前置工作:Query Rewrite(强烈建议)
  • 原因:用户输入千奇百怪,一定要做语义消歧、指代消解、意图澄清来规范输入
  • 方法:利用相关上下文(会话记忆、用户画像)+ 小模型(AC自动机实体匹配),产出结构化query(用于后续稀疏检索)与多样候选(用户交互确认)
  • 经验:所有大模型相关问题都可以转化为搜索问题,而所有的搜索问题都可以通过Query Rewrite来解决

Reflection:遇到阻塞或低置信度(LLM As A Judge),跳回整体规划节点,修正 DAG/Task Plan,而不是在某个局部节点死磕

**融合的****双手:**让Agent学会使用工具

“会说话的只是ChatBot,会调工具做事的才叫Agent”

这里将Tool Use作为融合的执行能力。

从Prompt调用到RL自适应学习

“Agent的瓶颈,不在于工具多少,而在能否自适应地使用它们。”

25年年初MCP开始流行,我们开始尝试能不能通过MCP接入各种第三方工具,扩展自家LLM能力范围

方案调研,发现传统的调prompt+推理模型的方式极难扩展、覆盖所有场景

因为Agent在执行DAG过程中,总会出现各种“意外”,比如请求异常、当前任务执行结果超出预期,防不胜防,开发成本巨大

所以尝试用RL的方法,构思一种Agent自适应学习工具使用策略:通过与环境反复交互、尝试调用工具并根据结果反馈进行优化,从而更好地使用工具以及如何调整调用参数

最简单的思路是用RLVR把一堆真实的 MCP Server 直接接进 RL 环境中联合训练,发现在部署、注册层面遇到了很多问题,直接放弃

后来借鉴Kimi K2的经验:模型在预训练中已经知道工具怎么用了,我们只需要把这个能力激发出来

尝试设计精妙的workflow,让模型把一段长长的任务,改写成探索、思考、工具调用、接受反馈、错误充实、输出等各种形式的交互轨迹

这样让模型自己合成已有核心高频Tool的调用类数据,训练后效果不错

总结难点:

1.数据。训练数据难易分布、质量,SFT冷启动数据获取

2.训练。奖励函数的设置,需要注重端到端的结果奖励并且保证训练稳定收敛,保证过程和结果的一致性,适当鼓励模型的创造性

3.工程落地。数据蒸馏小模型+多size模型组合+拆分端到端任务

融合的大脑:上下文工程与记忆

Context Enginnering

“多数Agent的失败,不是模型能力失败,是调度失败”

“Context is All You Need”

相关阅读:

1. Agent 架构综述:从 Prompt 到 Context

2.Context Engineering,一篇就够了。

3. https://zhuanlan.zhihu.com/p/1947787094299746426

agentic system效果不及预期时,根源往往可以归结为两个方面:

  1. 模型能力局限: 基模自身的能力不足,需要对模型本身进行优化
  2. 上下文缺失/退化: 模型没有收到生成这次回复所需的合适上下文

通常情况下(现在基础模型的智能已经超过一个阈值),输出不及预期的原因更多指向后者

即我们没有实现有效的上下文机制,导致系统解决问题时缺失了一些关键信息或者过量而退化,陷入本不应该有的幻觉

可以把Agentic System视为一种新型操作系统,LLM就像CPU,而上下文窗口(Context Window) 就像 RAM(同样是容量有限,管理 CPU 所需要的内存)

上下文工程则是这个操作系统中的内存管理器。它的职责不是简单地把数据塞满 RAM(上下文窗口),而是通过复杂的调度算法,决定在每一个“时钟周期”,哪些数据应该被加载、哪些应该被换出,从而保证整个系统的流畅运行和最终结果的准确性

主要有写入(Write)、选取(Select)、压缩(Compress)和隔离(Isolate)四类操作

写入、选取:缓存+记忆系统 

相关阅读:https://www.anthropic.com/engineering/multi-agent-research-system

压缩:处理单条信息流的内容,提升其内在的信息密度。

从逻辑角度看,任何不可逆的压缩都带有风险。所以建议把文件系统当作"终极上下文",做到永不丢失

相关阅读:https://zhuanlan.zhihu.com/p/1947787094299746426

隔离:处理多条信息流,管理系统的复杂性,同时也能起到广义的压缩作用

相较于前三个在信息流内部进行优化的原则,隔离是一种在系统架构层面进行的上下文管理策略

在多智能体系统中,子智能体扮演了“智能过滤器”的角色。它们在各自的领域内隔离且并行工作,为主智能体压缩大量原始信息,提高了主智能体看到的上下文中的信息密度

Anthropic 提到过一个很有意思的观点:“The essence of search is compression: distilling insights from a vast corpus.” 翻译过来便是:”搜索即压缩,从庞大的语料库中提取洞见“

所以可以把这里的子智能体都理解为Search Agent来实现

相关阅读:解构多智能体系统,一篇就够了。

记忆机制(Memory)

“RAG是面向LLM的搜广推,Memory是面向Agent的数据飞轮”

Memory是让Agent从“即时反应”走向“持续进化”的关键机制。从功能的角度,它可分为如下几大类:

  • 检索记忆:用RAG来检索外部知识,有助于减少知识冲突
  • 通用记忆:pre/post-train存储通用知识,提供基础认知
  • 规则记忆:用RL、prompt的方式,规范输出,比如以cot、json格式输出
  • 短期记忆:通常用redis/抽取式摘要+向量化来存,保持当前会话内的立即响应能力 
  • 长期记忆:在与用户长期交互过程中,对会话内容做摘要来存储用户画像(偏好、习惯、身份)

未来展望:Agent驱动的应用新形态

Agent驱动的应用形态

AI 浏览器:比如新版Edge、360浏览器

发展方向:从“搜索+问答”过渡到沉浸式信息导航,结合网页理解、可视化总结、交互式探索

相关解读:

1. 浏览器,又“性感”了?

2. https://zhuanlan.zhihu.com/p/702096989

3. https://zhuanlan.zhihu.com/p/1935636464965759478

ChatBot:ChatGPT、Claude

发展方向:不仅是文本对话,而是更炫酷的交互体验——输出形式从Markdown文本拓展到前端代码、交互式界面、多模态内容

Workflow Automation:Data Agent(会议记录、文档总结、数据分析)

发展方向:赋能企业工作流程,降本增效、解放人力

Personal Assistant:Siri、小米小爱

发展方向:从泛化助手到极度个性化的私人助理,通过长期记忆累积用户画像,具备偏好感知、上下文无缝衔接和主动提醒能力

Domain-specific Agent:AI IDE(cursor、Trae)、Research Agent(Deep Research)、Law/Medical Agent

发展方向:向有价值的领域深挖,做懂行的“智能合伙人”

心血之作,期待赐教,欢迎在评论区留言讨论。

一起“点****赞”****三连↓