Skip to main content

Agent 层全景地图 & 打怪升级路线

第二层(Agent Layer)的边界与学习路径

六大核心领域

🟢 上下文工程

  • Context window 管理
    如何分配有限 token 预算
  • System prompt 设计
    角色定义、约束、输出格式
  • 对话历史压缩
    compact / summarize 策略
  • 分层记忆
    working / episodic / long-term
  • Few-shot 构造
    示例选择与动态注入

🟣 Agent 架构

  • ReAct 循环
    Reason → Act → Observe 迭代
  • Plan-and-Execute
    先规划再执行,可中断修正
  • Multi-Agent 编排
    orchestrator + subagent 分工
  • 错误恢复机制
    重试、降级、人工介入
  • 状态机设计
    Agent 的生命周期管理

🟡 工具调用系统

  • Tool schema 设计
    名称、描述、参数的写法影响调用质量
  • 并行 vs 串行调用
    何时可以并发,何时必须顺序
  • 工具结果处理
    错误格式化、截断、过滤
  • 工具权限与沙箱
    防止越权操作
  • MCP 协议设计
    标准化工具接入层

🔴 RAG 工程

  • Chunking 策略
    固定窗口 / 语义分割 / 递归分割
  • Embedding 选型
    OpenAI / Cohere / 本地模型
  • 向量库选型
    Pinecone / Qdrant / pgvector
  • 混合检索
    向量 + 关键词(BM25)融合
  • Reranking
    检索后二次排序提升精度

🔵 性能与可靠性

  • Prompt 缓存
    prefix cache / KV cache 复用
  • Streaming 处理
    流式输出的中断与恢复
  • 延迟优化
    TTFT / 并发请求控制
  • Token 成本控制
    预算管理、模型分级调用
  • 可观测性
    trace / span / token 计量

⚪ 评估与迭代

  • Eval 框架设计
    如何定义好答案
  • 自动化测试
    LLM-as-judge 评分
  • Prompt 版本管理
    变更追踪与回滚
  • A/B 测试
    不同策略的效果对比
  • 失败案例分析
    从坏输出中提炼改进点

图例说明:

  • 🟢 上下文工程——最先触碰,影响最广
  • 🟣 Agent 架构——核心骨架
  • 🟡 工具调用——连接外部世界
  • 🔴 RAG 工程——知识注入
  • 🔵 性能与可靠性——生产必备
  • ⚪ 评估与迭代——持续进化