附录定位
主线 20 章基本都在 Layer 2(agent 评测)。Layer 3(产品评测)只在第 1 章金字塔里点到。这个附录补 Layer 3 的工程实操——当老板问 “agent 上线后业务有多少改善”,怎么用工程指标搭起到业务指标的桥。
读者群里”翻完 20 章主线”和”读这个附录”的人是不同的——这个附录写给被叫去汇报的工程师。
三层指标体系
Layer 3 业务: CSAT / NPS / 转化率 / 留存率 / ARR
↑ 由 Layer 2 推动
Layer 2 工程: pass^1 / pass^k / trajectory / policy / judge
↑ 由 Layer 1 决定
Layer 1 模型: MMLU / HumanEval / Arena EloLayer 3 是滞后指标——用户用了一段时间才有 CSAT 数据。Layer 2 是前置指标——评测集分数能立刻看到。
工程师做 agent 评测,Layer 2 是日常工作,Layer 3 是给老板看的。两者必须有映射关系。
国内 AI 客服公开的业务指标
研究阶段拿到的国内大厂 AI 客服公开数据:
| 厂商 | 公开业务指标 | 来源 |
|---|---|---|
| 阿里小蜜 / 淘小蜜 | 转化率 +10%、退款挽单率 20% | 阿里达摩院 |
| 京东 JIMI | 满意度 80%、商品推荐准确率 +27% | 京东开发者博客 |
| 拼多多 AI 客服 | 不公开 | - |
| 美团客服 | 不公开 | - |
注意几件事:
- 国内大厂只公开业务指标(CSAT / 转化率 / 推荐准确率),没有工程指标(pass^k / policy / trajectory)。这是因为业务指标”好看”,工程指标”难看”
- 工程师必须自己建立业务指标 ↔ 工程指标的对应关系,否则 Layer 2 改进无法跟老板沟通
- 跨厂商业务指标不可比(CSAT 算法不一样、用户基线不同)。只看自家纵向变化
工程指标 → 业务指标的映射
ShopAgent 这种电商客服场景下经验映射:
| 工程指标涨 N pp | 业务指标可能变化 |
|---|---|
| L1 pass^1 +5pp | CSAT +0.1-0.2 颗星 |
| L2 task_completion +10pp | 人工 escalation rate -3-5pp |
| trajectory_subset (含 policy 1 先查后改) +5pp | 误退款率 -50% |
| L3 forbidden_tools +10pp | 黑产损失率 -30% |
| response_latency -200ms | CSAT +0.05 颗星(不显著但可累积) |
这些映射不是普世的。每家公司业务不一样、用户基线不一样,映射系数都要自己跑 A/B 测出来。但这张表能作为初始 hypothesis。
A/B 实验
最直接的 Layer 2 → Layer 3 验证方法是 A/B 实验:
线上流量 50/50 split
↓
A 组(control):用 v1 ShopAgent
B 组(treatment):用 v2 ShopAgent(改进过的)
↓
跑 7-14 天,收集 Layer 3 指标
↓
A vs B 显著性检验A/B 实验工程:
Day -7: 决定要测的 hypothesis("L2 +10pp 是否让 CSAT +0.15")
Day -3: 拉到 1% 流量做 smoke test,看实验框架本身有没 bug
Day 0: 开 50/50 split
Day 7: 收阶段性指标
Day 14: 终结实验,做显著性分析
Day 21: 写 readout 给老板关键陷阱:
- 流量量:CSAT 这种”评分 + 缺失”指标需要大量样本才显著。10 万次对话 + 30% 评分率 = 3 万 CSAT 数据点 = SE ~0.5-1 个点。实验要跑足 1-2 周才有显著性
- 季节性:双 11 / 618 期间的 CSAT 跟平时不可比,A/B 实验要避开
- 新奇效应:新 agent 一开始 CSAT 涨可能是”用户觉得新鲜”,2-3 周后回归基线
- 下游污染:A 用户在 1 天后跟 B 用户在群里聊 → A 用户看到 B 的 ShopAgent 表现 → A 用户行为变化。严格 A/B 实验需要 user-level random,不是 session-level
小流量场景怎么办:如果你的产品日活只有 1000 次对话(很多中小团队就这规模),50/50 A/B 要跑 4-6 周才有统计显著性,业务等不起。两个替代方案:
- Bandit(Multi-Armed Bandit):动态分配流量,模型表现越好的越多流量。Adapt 速度比 A/B 快 3-5 倍,少量流量也能收敛
- Sequential testing:每天看一次指标,到达 pre-set 阈值就停。比固定 14 天的 A/B 更快终止
哪个都比”硬等 A/B 数据”好。日活 < 5000 强烈建议用 bandit。
衡量 ROI
老板真正想问的是 “投入 X 拿到 Y 回报”。Agent ROI 计算:
投入:
- 工程师 ×N × M 月 (开发 + 维护)
- LLM API cost (年 cost = 每日对话数 × 单次 cost × 365)
- 评测体系搭建(一次性投入,按 2 年摊销)
- 飞轮人力(1 人 × 4-6 小时/周)
回报:
- 人工客服替代节省(年节省 = 人工 cost - LLM cost - 工程 cost)
- CSAT 提升带来的 LTV 提升(CSAT +0.5 → 复购率 +5% → 年 LTV 增加 X)
- 转化率提升带来的 GMV 增加(转化率 +N% → 月新增 GMV)
- 黑产损失减少(黑产损失率 -N% → 年节省)具体一个 case 计算(中型电商,假设数字):
ShopAgent 上线后一年:
投入: 3 工程师 × 12 月 × $10k/月 = $360k
LLM API: $50k
评测体系: $30k (摊销)
飞轮人力: 0.5 工程师 × 12 月 = $60k
总投入: $500k
回报:
替代 30 人工客服: 30 × $30k × 60% (部分替代) = $540k
CSAT 4.0 → 4.2: 复购率 +3% → 年 GMV +$300k
黑产损失从 0.5% → 0.3%: GMV $50M × 0.2% = $100k
总回报: $940k
ROI: ($940k - $500k) / $500k = 88%数字编的,但计算框架是真的。工程师汇报时按这个框架算自家数据。
使用警告:实际 agent 项目第一年 ROI 在 −50% 到 +200% 都有可能,强依赖你的 LLM 单价、人力成本基线、agent 实际质量。第一个季度别承诺具体 ROI 数字——先对齐”成功的指标长什么样”(升级到人工率、误退款率、CSAT),第二个季度有数据再算账。直接套用上面 88% 给老板会反过来咬人——他记住 88%,第二季度只跑出 30%,“承诺没兑现”远比”没承诺”代价大。
老板汇报的 narrative
工程师常常做了一大堆工程改进,汇报时却只能说”pass^1 涨了 8 个点”。老板听不懂。正确做法:
## ShopAgent Q2 优化汇报
### 业务结果
- CSAT: 4.0 → 4.2 (+0.2)
- 人工客服 escalation rate: 22% → 18% (-4pp)
- 误退款金额: $20k/月 → $8k/月 (-60%)
### 推动这些业务变化的工程改进
1. **policy 4 二次确认** (第 13 章): pass^1 从 67% → 89%
→ 直接降低误退款率 60%
2. **多轮 task completion** (第 10 章): 47% → 58%
→ 减少 escalation rate 4pp
3. **L3 对抗集** (第 16 章): 60% → 75%
→ 黑产损失 -30%
### 投入
- 3 个工程师 6 个月(评测体系 + ShopAgent 优化)
- LLM API 季度成本 $13k
### ROI
按全年口径 ROI 约 88%,2 年回本。业务结果先行,工程改进做支撑。老板关心 ROI,工程师证明 ROI。
跟产品 / 业务对齐的常态
不要等季度汇报才聊业务指标。每月 review 是工程节奏:
每月第一周:
- PM 出业务月报(CSAT / 转化率 / 投诉量)
- 工程师出工程月报(pass^k 变化 / 飞轮 PR 数 / 新 failure mode)
- 联合 review 哪些工程改进推动了哪些业务变化
- 决定下月 ShopAgent 改进优先级这种 cadence 让 Layer 2 和 Layer 3 不脱节。
本附录要点回顾
- Layer 2 → Layer 3 映射:pass^1 → CSAT,trajectory_match → 工单一次解决率,policy_4 → 误退款率
- 3 个核心业务指标:升级到人工率(越低越好)/ 误退款率(合规底线) / CSAT(用户满意度)
- ROI 框架不是 ROI 数字:先用框架对齐”成功的指标长什么样”,再用数据算账
- 第一季度别承诺 ROI 数字:实际范围 -50% 到 +200% 都有可能,承诺 88% 然后只跑出 30% 比不承诺代价大
- 老板汇报 narrative:先讲业务结果(升级率从 30% 降到 8%),再讲工程改进(FM-1/2/3 加固)做支撑
第 C 总结
Layer 3 产品评测不是工程师的核心工作,但工程师必须能用业务语言汇报工程成果——否则评测体系做得再好,也得不到资源继续做。
3 个核心动作:
- 建立工程指标 → 业务指标的初始 hypothesis
- 用 A/B 实验验证 hypothesis(season 内 1-2 周,避开 11/618)
- 每月 review 对齐
工程师不需要会算 LTV / NPS 的精确公式(那是 PM 的事),但要能在月会上说”L2 pass^k 涨 10 个点,预期带来 CSAT +0.15,希望两周后看到实际数据”。
本章来自《AI Agent 评测工程实战》开源版 · 作者「递归客」
在线阅读完整书系:inferloop.dev · 反馈与勘误:GitHub Issues
本书资源
- 源码仓库 · github.com/diguike/book-agent-evals
- 在线阅读 · inferloop.dev/agent-evals
- 所有书目 · inferloop.dev
继续阅读 · 同作者其他书
- 《Transformer 工程实战》从注意力机制到生产部署
- 《自己动手写 AI Agent》从 Claude Code 开源架构到你的第一个编程助手
- 《AI 时代的 CLI 工具开发实战》用 TypeScript 构建现代 CLI 工具
- 《LLM Infra 工程实战》从入门到实践
- 《Hermes Agent 实战》构建会成长的个人 AI Agent
- 《OpenClaw 源码解析》现代 Agent 系统的架构设计与工程实践
- 《Agent Memory 工程实战》从 claude-mem 源码到企业级记忆平台
- 《AI Token 中转站实战》从 0 搭建企业级 LLM 网关
- 《LangChain.js Agent 开发权威指南》从 1.x 抽象到生产级 Agent
- 《百万级 AI Agent 平台架构》智能客服 SaaS 实战
- 《源码精读》每章一个开源仓库 · 从架构到品味
- 《Claude Code Skill 指南》
- 《Claude 插件官方指南》