🔬 DD21: AI Agent技术栈全解析
🔬 AI深度解析 DD21 — AI Agent技术栈全解析
预计时长:约25分钟
🎤 开场
大家好,欢迎回到AI深度解析,我是小敏。
今天我们要聊的话题可能是2025年AI领域最火的关键词——AI Agent(AI智能体)。
你可能已经注意到了,几乎所有的科技公司都在谈Agent。OpenAI说”2025是Agent之年”,Google、Microsoft、Anthropic都在大力布局Agent。
但是,”Agent”这个词被用得太泛滥了,以至于很多人不太清楚它到底是什么。今天,我就来给你做一个完整的技术栈拆解——一个真正的AI Agent到底由哪些组件构成?每个组件现在的技术方案是什么?有什么局限?
📖 第一部分:什么是AI Agent?
先给一个清晰的定义。
AI Agent = LLM + 规划能力 + 记忆系统 + 工具使用 + 自我反思
普通的ChatGPT对话是”你问一句,它答一句”。而Agent是”你给它一个目标,它自己规划步骤、调用工具、检查结果、动态调整,直到完成任务”。
打个比方:
- 普通聊天机器人就像一个接线员——你问什么它答什么,答完就结束了
- AI Agent就像一个实习生——你给他一个任务,他自己想办法去完成,中间遇到问题会查资料、用工具、甚至求助别人
Agent的核心认知循环:
感知(Perceive) → 思考(Think) → 行动(Act) → 观察(Observe)
↑ ↓
└──────────── 循环 ─────────────────────────┘
这个循环不断重复,直到任务完成或Agent判断无法完成。
📖 第二部分:规划(Planning)——Agent的大脑
规划是Agent最核心的能力——如何把一个复杂任务分解成可执行的步骤。
方法一:ReAct(Reasoning + Acting)
这是目前最流行的Agent推理框架。模型交替进行”思考”和”行动”:
问题:北京今天适合户外运动吗?
思考:我需要查一下北京今天的天气
行动:调用天气API,查询北京天气
观察:北京今天35°C,有雾霾,AQI 180
思考:35度高温加上严重雾霾,不适合户外运动
行动:生成最终回答
回答:不建议。今天北京35°C高温且AQI达180,建议室内运动。
方法二:Plan-and-Execute
先制定完整计划,再逐步执行。适合复杂的多步骤任务。
任务:帮我写一份市场分析报告
计划:
1. 收集行业数据
2. 分析竞争对手
3. 整理市场趋势
4. 撰写报告草稿
5. 审校和优化
执行:按顺序执行每一步,每步完成后评估是否需要调整计划
方法三:Tree of Thoughts(思维树)
不只是线性思考,而是同时探索多条推理路径,像下棋一样。适合需要创造性解决问题的场景。
| 规划方法 | 适用场景 | 优点 | 缺点 |
|---|---|---|---|
| ReAct | 简单交互任务 | 灵活、快速 | 容易陷入循环 |
| Plan-and-Execute | 复杂多步骤任务 | 全局视野 | 计划可能过时 |
| Tree of Thoughts | 创造性问题 | 探索多种可能 | 计算成本高 |
📖 第三部分:记忆系统(Memory)——Agent的记忆宫殿
一个没有记忆的Agent就像一条金鱼——每次对话都从头开始。好的记忆系统是Agent智能化的关键。
短期记忆(Working Memory)
就是当前对话的上下文。最简单的实现是把对话历史直接塞进提示词里。问题是上下文窗口有限,对话太长就装不下了。
改进方案:
- 滑动窗口:只保留最近N轮对话
- 摘要压缩:用LLM把旧对话压缩成摘要
- 关键信息提取:只保留对话中的关键事实
长期记忆(Long-term Memory)
存储在外部数据库中的持久化信息。用户的偏好、历史交互、学到的知识等。
长期记忆示意:
[向量数据库]
├── 用户偏好:"喜欢简洁的回答风格"
├── 历史事件:"2024-03用户完成了Python项目迁移"
├── 学到的知识:"这个用户的数据库是PostgreSQL 15"
└── 对话摘要:"上次讨论了微服务架构的选型"
情景记忆(Episodic Memory)
记录Agent过去执行任务的完整经历——做了什么、结果如何、犯了什么错。下次遇到类似任务时可以参考。
这就像人类的经验学习——你第一次做饭可能手忙脚乱,但做过几次之后就知道该先做什么、后做什么了。
📖 第四部分:工具使用(Tool Use)——Agent的双手
大模型本身只能生成文本。要让它真正”做事”,需要给它工具。
常见的工具类型:
| 工具类型 | 例子 | 能力 |
|---|---|---|
| 搜索引擎 | Google Search, Bing | 获取最新信息 |
| 代码执行 | Python解释器 | 计算、数据处理 |
| API调用 | 天气API、日历API | 与外部服务交互 |
| 文件操作 | 读写文件 | 处理文档 |
| 数据库 | SQL查询 | 查询结构化数据 |
| 浏览器 | Playwright, Selenium | 操作网页 |
工具调用的基本流程:
1. 模型判断需要使用工具
2. 生成工具调用的参数(函数名 + 参数)
3. 系统执行工具调用
4. 把工具返回结果送回模型
5. 模型根据结果继续推理或生成最终回答
Function Calling是目前最主流的工具使用方式。OpenAI、Anthropic、Google都支持。你在系统提示词中定义可用的工具(函数签名),模型会自动判断何时调用哪个工具。
一个关键挑战是工具选择——当可用工具很多时(比如几百个API),模型怎么知道该用哪个?目前的解决方案包括:
- 工具描述要写得清晰
- 对工具进行分类,先选类别再选具体工具
- 用RAG来检索最相关的工具
📖 第五部分:Agent框架对比
市面上有不少Agent开发框架,我来做一个横向对比。
| 框架 | 开发者 | 核心特点 | 适用场景 |
|---|---|---|---|
| LangChain/LangGraph | LangChain | 生态完善,Graph式编排 | 通用Agent开发 |
| AutoGen | Microsoft | 多Agent对话框架 | 多Agent协作 |
| CrewAI | 社区 | 基于角色的多Agent | 团队协作模拟 |
| Semantic Kernel | Microsoft | .NET/Python/Java | 企业级集成 |
| Dify | 社区 | 可视化编排 | 快速原型 |
| Coze/扣子 | 字节跳动 | 低代码平台 | 非技术用户 |
LangGraph 值得特别说一下。它把Agent的逻辑建模为一个有向图——每个节点是一个操作(调用LLM、使用工具、做判断),边定义了流程走向。这让复杂的Agent逻辑变得可视化、可调试。
LangGraph 示意:
[开始] → [分析问题] → {需要搜索?}
├─ 是 → [搜索] → [评估结果] → {够了吗?}
│ ├─ 否 → [搜索]
│ └─ 是 → [生成回答]
└─ 否 → [直接回答]
📖 第六部分:多Agent系统
一个Agent的能力总是有限的。当任务足够复杂时,可以让多个Agent协作。
多Agent协作模式:
-
主管模式(Supervisor):一个”老板”Agent负责拆分任务、分配给不同的”员工”Agent,最后汇总结果。
-
辩论模式(Debate):多个Agent从不同角度分析同一个问题,然后综合各方观点得出结论。就像法庭上的控辩双方。
-
流水线模式(Pipeline):每个Agent负责一个环节,像工厂流水线一样依次处理。
-
自组织模式:Agent之间自行协调,没有固定的层级关系。
一个实际的例子——用多Agent做软件开发:
[产品经理Agent] 分析需求
↓
[架构师Agent] 设计系统架构
↓
[开发者Agent] 编写代码
↓
[测试Agent] 测试代码并反馈bug
↓
[开发者Agent] 修复bug
↓
[代码审查Agent] 审查代码质量
📖 第七部分:Agent的当前局限
说了这么多,Agent也有很多局限,我们得实事求是。
局限一:可靠性不足
Agent的行为不够确定——同样的任务跑两次,可能走完全不同的路径,甚至一次成功一次失败。在生产环境中,这种不确定性是个大问题。
局限二:错误累积
Agent的每一步都可能犯错。步骤越多,错误累积越严重。如果每步正确率95%,10步之后总体正确率就降到了 0.95¹⁰ ≈ 60%。
局限三:成本和延迟
Agent需要多次调用LLM,每次调用都有成本和延迟。一个复杂任务可能需要调用几十次LLM,总成本和响应时间都不容忽视。
局限四:安全风险
给Agent赋予工具使用能力意味着它能”做事”——发邮件、执行代码、操作数据库。如果Agent判断失误,后果可能很严重。需要严格的权限控制和人工审批机制。
📖 第八部分:真实部署案例和未来展望
尽管有局限,Agent已经在一些场景中落地了:
- 代码助手(GitHub Copilot Workspace, Cursor):帮开发者写代码、修bug、做代码审查
- 客服Agent:处理客户咨询,复杂问题转人工
- 数据分析Agent:接收自然语言查询,自动写SQL、生成图表
- 研究助手:收集资料、整理信息、生成报告
未来的发展方向:
- 更强的规划能力——靠更强的基础模型
- 更好的错误恢复——能自动检测和纠正错误
- 标准化的工具协议——MCP(Model Context Protocol)等标准让工具接入更简单
- Agent即服务——像使用云服务一样使用各种专业Agent
👋 结尾
好了,今天我们完整拆解了AI Agent的技术栈——规划、记忆、工具使用、多Agent协作。我们也坦诚地聊了它的局限。
Agent确实是AI应用的未来方向,但它还在快速演进中。目前最实用的建议是:从简单场景开始,逐步增加复杂度,每一步都做好评估和兜底。
下期节目,我们回到模型训练的”硬核”话题——大模型训练的黑魔法。数据怎么处理?算力怎么分配?分布式训练怎么做?一个万亿参数的模型到底是怎么炼成的?我们下期再见!
AI深度解析播客 DD21 · 发布日期:2026年4月15日