构建智能体的主流范式 #

一个现代的智能体, 其核心能力在于能将大语言模型的推理能力与外部世界联通. 它能够自主地理解用户意图, 拆解复杂任务, 并通过调用代码解释器, 搜索引擎, API等一系列「工具」，来获取信息, 执行操作, 最终达成目标.

为了更好地组织智能体的思考与行动过程, 业界涌现出了多种经典的架构范式.

ReAct #

ReAct 由 Shunyu Yao 等人于 2022 年提出. 核心思想是将推理 (Reason) 与行动 (Act) 相结合.

ReAct 认为推理与行动是相辅相成的. 因此, 其引导模型在每一步都遵循下面的轨迹:

智能体会不断重复这个循环. 将观察结果添加到上下文. 直到它认为已经找到了最终答案.

这种方式适用于下面的场景:

Plan-and-Solve 由 Lei Wang 等人于 2023 年提出. 其核心动机是为了解决思维链在处理多步骤复杂问题时容易偏离轨道的问题.

Plan-and-Solve 将整个流程解耦为两个核心阶段:

通过这种策略, 可以使得智能体在处理长远的任务时保持更高的一致性, 避免在中间步骤中迷失方向.

Plan-and-Solve 适用于结构性强, 可以被清晰分解的复杂任务:

Reflection 机制相当于添加了一个检查部分. 就像是人类在做完数学题以后会演算一样. 最早出现自 Shinn Noah 等人 2023 年提出的 Reflexion 框架.

可以将其概括为一个三步循环: 执行-反思-优化.

执行 (Execution)：首先，智能体使用我们熟悉的方法（如 ReAct 或 Plan-and-Solve）尝试完成任务，生成一个初步的解决方案或行动轨迹。这可以看作是初稿。
反思 (Reflection)：接着，智能体进入反思阶段。它会调用一个独立的、或者带有特殊提示词的大语言模型实例，来扮演一个评审员的角色。这个评审员会审视第一步生成的初稿，并从多个维度进行评估，例如：
- 事实性错误：是否存在与常识或已知事实相悖的内容？
- 逻辑漏洞：推理过程是否存在不连贯或矛盾之处？
- 效率问题：是否有更直接、更简洁的路径来完成任务？
- 遗漏信息：是否忽略了问题的某些关键约束或方面？根据评估，它会生成一段结构化的反馈 (Feedback)，指出具体的问题所在和改进建议。
优化 (Refinement)：最后，智能体将初稿和反馈作为新的上下文，再次调用大语言模型，要求它根据反馈内容对初稿进行修正，生成一个更完善的修订稿。

其价值在于:

它为智能体提供了一个内部纠错回路，使其不再完全依赖于外部工具的反馈（ReAct 的 Observation），从而能够修正更高层次的逻辑和策略错误。
它将一次性的任务执行，转变为一个持续优化的过程，显著提升了复杂任务的最终成功率和答案质量。
它为智能体构建了一个临时的短期记忆。整个执行-反思-优化的轨迹形成了一个宝贵的经验记录，智能体不仅知道最终答案，还记得自己是如何从有缺陷的初稿迭代到最终版本的。更进一步，这个记忆系统还可以是多模态的，允许智能体反思和修正文本以外的输出（如代码、图像等），为构建更强大的多模态智能体奠定了基础。