Agent 的本质:用 Token 换架构
日期:2025-12-24 15:09:55 / 人气:14

当 Manus 这类 Agent 产品今年引爆市场时,人们的兴奋点并非“它更聪明”,而是它解决了一个长期困扰企业的难题——如何在工具多、意图杂、异常频发的场景下,用更低成本实现灵活的任务执行。要理解这一点,我们需要从 Agent 的“诞生逻辑”说起。
一、为什么需要 Agent?Workflow 搞不定的“复杂性爆炸”
大模型虽强,却天生有缺陷:它依赖训练数据,无法直接获取外部实时信息(尤其是垂直领域数据),更无法自主决策“何时调用什么工具”。早期解决方案是 Workflow(如 RAG)——通过人工编写的规则(if/else、循环、重试) orchestrate 工具调用。但企业真实场景中,复杂度来自三类“不可穷举”:
• 数据源激增:从公网到 A/B 公司私有数据,工具数量指数级增长;
• 意图组合爆炸:用户问题可能涉及多工具联动(如“查北京天气+腾讯股价+总结”);
• 异常情况频发:工具调用失败、参数错误、结果校验不通过……
若用 Workflow 处理,需为每个场景写死分支逻辑,最终导致“分支爆炸+维护爆炸”——开发一个复杂 Agent 的成本曲线会陡峭到难以承受。
Agent 的价值正在于此:它将原本由工程师在开发期写死的控制流(路由、工具选择、重试),迁移到运行时由模型动态决策。代价是多轮推理、更多 Token 消耗和更高延迟,但换来了开发与维护成本的显著下降——新增工具时,只需配置 MCP 服务器,无需修改所有 Agent 代码;工具调用失败时,模型可自主重试或调整策略。
简言之,Agent 不是“更聪明的模型”,而是用时间与成本换架构简洁度的工程优化。
二、Agent 进化史:从 ReAct 到 Skills,模型能力驱动的范式迭代
Agent 的落地依赖三大技术支柱的成熟,其发展脉络清晰可见:
1. 2022 年:ReAct 框架——推理与行动的“启蒙”
ReAct(《ReAct: Synergizing Reasoning and Acting in Language Models》)首次提出“思考→行动→观察→再思考”的循环框架,让模型在解决问题时能动态调整策略。但早期缺乏标准化工具调用能力,需手动实现工具识别(如提示词工程或微调),效率低下。
2. 2023 年 6 月:Function Calling(FC)——工具调用的“标准化”
OpenAI 推出 Function Calling,将工具调用固化为模型的基础能力:开发者预定义工具(名称、描述、参数),模型根据用户问题自动匹配并输出结构化调用指令(如 JSON)。这标志着 Agent 从“实验室玩具”走向“工程可用”——工具调用不再依赖人工规则,而是由模型自主决策。
3. 2024-2025 年:MCP——工具集成的“解耦”
当企业拥有 10 个 Agent 和 20 个工具时,传统 FC 需为每个 Agent 单独配置工具(200 个集成点),维护成本极高。MCP(Model Context Protocol)通过“客户端-服务器”架构标准化工具接入:工具开发者只需实现 MCP 服务器,Agent 作为客户端即可调用所有符合协议的工具。集成点从 N×M 骤降至 N+M,彻底解决“工具爆炸”的维护难题。
4. 2025 年 10 月:Skills——工具使用的“SOP 化”
工具增多后,模型常因“乱调用、错调用”导致体验差。Anthropic 提出的 Skills 技术,将“如何用工具完成任务”的 SOP(标准操作流程)沉淀为可复用的模块(含说明文档、脚本、资源)。模型执行任务时,会先扫描 Skills 库,按需加载匹配的 SOP,直接按步骤调用工具——相当于给 Agent 装了“操作手册”,大幅提升稳定性。
三、核心技术拆解:FC、MCP、Skills 如何协同?
• Function Calling:定义工具的“元数据”(名称、描述、参数),让模型知道“有哪些工具可用”;
• MCP:解决工具的“集成问题”,通过标准化协议让 Agent 轻松接入海量工具;
• Skills:解决工具的“使用问题”,用 SOP 规范模型调用工具的步骤,减少随机性。
三者协同下,Agent 能高效处理复杂任务。例如用户问“查北京天气+腾讯股价+总结”,流程变为:
1. 模型通过 FC 识别需调用“天气查询”“股价查询”工具;
2. MCP 服务器提供工具的具体实现(如对接气象 API、金融数据接口);
3. Skills 中的“信息查询 SOP”指导模型按顺序调用工具、整合结果并生成总结。
四、ReAct 框架:Agent 的“大脑”如何运转?
ReAct 是 Agent 的核心编排层,模拟人类解决复杂问题的认知过程:思考(Thought)→行动(Action)→观察(Observation)→再思考。其中,“Thought”常通过思维链(CoT)展开——模型先分解问题、推导步骤,再执行行动。例如回答“公司请假流程”时:
• Thought:先查《员工手册》中“请假流程”相关内容;
• Action:调用 search_docs("请假流程");
• Observation:找到“提交申请→主管审批→HR 备案”的步骤;
• Thought:整理步骤,生成清晰回答;
• Final Answer:输出流程说明。
CoT 的引入有效降低幻觉,让 Agent 的思考过程可追溯、可验证。
结语:Agent 的本质是“工程范式的进化”
市场对 Agent 的兴奋,本质是对“用架构换效率”的认可——它用更多 Token 和时间,换来了企业场景下的低维护成本与高灵活性。从 ReAct 到 Skills,Agent 的进化始终依赖模型能力的突破(如工具调用精度、逻辑推理能力),而 2025 年后模型的长足进步(推理、上下文长度、工具调用微调),让 Agent 从“概念”走向“可用”。
未来,随着记忆系统等模块的完善(如本地向量数据库),Agent 或将真正成为“数字世界的通用助手”——但核心逻辑不变:用 Token 换架构,用成本换效率。
作者:星辉注册登录平台
新闻资讯 News
- 冯仑:未来十年的财富之源12-24
- 怀旧与创新共生:Vintage风潮下...12-24
- 2025:教育行业的拐点之年,旧红...12-24
- 张双南:只要做好眼下的事情,前...12-24

