Appendix C Business Metrics · AI Agent 评测工程实战

附录定位

主线 20 章基本都在 Layer 2（agent 评测）。Layer 3（产品评测）只在第 1 章金字塔里点到。这个附录补 Layer 3 的工程实操——当老板问 “agent 上线后业务有多少改善”，怎么用工程指标搭起到业务指标的桥。

读者群里”翻完 20 章主线”和”读这个附录”的人是不同的——这个附录写给被叫去汇报的工程师。

三层指标体系


Layer 3 业务: CSAT / NPS / 转化率 / 留存率 / ARR
    ↑ 由 Layer 2 推动
Layer 2 工程: pass^1 / pass^k / trajectory / policy / judge
    ↑ 由 Layer 1 决定
Layer 1 模型: MMLU / HumanEval / Arena Elo

Layer 3 是滞后指标——用户用了一段时间才有 CSAT 数据。Layer 2 是前置指标——评测集分数能立刻看到。

工程师做 agent 评测，Layer 2 是日常工作，Layer 3 是给老板看的。两者必须有映射关系。

国内 AI 客服公开的业务指标

研究阶段拿到的国内大厂 AI 客服公开数据：

厂商	公开业务指标	来源
阿里小蜜 / 淘小蜜	转化率 +10%、退款挽单率 20%	阿里达摩院
京东 JIMI	满意度 80%、商品推荐准确率 +27%	京东开发者博客
拼多多 AI 客服	不公开	-
美团客服	不公开	-

注意几件事：

国内大厂只公开业务指标（CSAT / 转化率 / 推荐准确率），没有工程指标（pass^k / policy / trajectory）。这是因为业务指标”好看”，工程指标”难看”
工程师必须自己建立业务指标 ↔ 工程指标的对应关系，否则 Layer 2 改进无法跟老板沟通
跨厂商业务指标不可比（CSAT 算法不一样、用户基线不同）。只看自家纵向变化

工程指标 → 业务指标的映射

ShopAgent 这种电商客服场景下经验映射：

工程指标涨 N pp	业务指标可能变化
L1 pass^1 +5pp	CSAT +0.1-0.2 颗星
L2 task_completion +10pp	人工 escalation rate -3-5pp
trajectory_subset (含 policy 1 先查后改) +5pp	误退款率 -50%
L3 forbidden_tools +10pp	黑产损失率 -30%
response_latency -200ms	CSAT +0.05 颗星（不显著但可累积）

这些映射不是普世的。每家公司业务不一样、用户基线不一样，映射系数都要自己跑 A/B 测出来。但这张表能作为初始 hypothesis。

A/B 实验

最直接的 Layer 2 → Layer 3 验证方法是 A/B 实验：


线上流量 50/50 split
    ↓
A 组（control）：用 v1 ShopAgent
B 组（treatment）：用 v2 ShopAgent（改进过的）
    ↓
跑 7-14 天，收集 Layer 3 指标
    ↓
A vs B 显著性检验

A/B 实验工程：


Day -7: 决定要测的 hypothesis（"L2 +10pp 是否让 CSAT +0.15"）
Day -3: 拉到 1% 流量做 smoke test，看实验框架本身有没 bug
Day 0:  开 50/50 split
Day 7:  收阶段性指标
Day 14: 终结实验，做显著性分析
Day 21: 写 readout 给老板

关键陷阱：

流量量：CSAT 这种”评分 + 缺失”指标需要大量样本才显著。10 万次对话 + 30% 评分率 = 3 万 CSAT 数据点 = SE ~0.5-1 个点。实验要跑足 1-2 周才有显著性
季节性：双 11 / 618 期间的 CSAT 跟平时不可比，A/B 实验要避开
新奇效应：新 agent 一开始 CSAT 涨可能是”用户觉得新鲜”，2-3 周后回归基线
下游污染：A 用户在 1 天后跟 B 用户在群里聊 → A 用户看到 B 的 ShopAgent 表现 → A 用户行为变化。严格 A/B 实验需要 user-level random，不是 session-level

小流量场景怎么办：如果你的产品日活只有 1000 次对话（很多中小团队就这规模），50/50 A/B 要跑 4-6 周才有统计显著性，业务等不起。两个替代方案：

Bandit（Multi-Armed Bandit）：动态分配流量，模型表现越好的越多流量。Adapt 速度比 A/B 快 3-5 倍，少量流量也能收敛

Sequential testing：每天看一次指标，到达 pre-set 阈值就停。比固定 14 天的 A/B 更快终止

哪个都比”硬等 A/B 数据”好。日活 < 5000 强烈建议用 bandit。

衡量 ROI

老板真正想问的是 “投入 X 拿到 Y 回报”。Agent ROI 计算：


投入：
  - 工程师 ×N × M 月 (开发 + 维护)
  - LLM API cost (年 cost = 每日对话数 × 单次 cost × 365)
  - 评测体系搭建（一次性投入，按 2 年摊销）
  - 飞轮人力（1 人 × 4-6 小时/周）

回报：
  - 人工客服替代节省（年节省 = 人工 cost - LLM cost - 工程 cost）
  - CSAT 提升带来的 LTV 提升（CSAT +0.5 → 复购率 +5% → 年 LTV 增加 X）
  - 转化率提升带来的 GMV 增加（转化率 +N% → 月新增 GMV）
  - 黑产损失减少（黑产损失率 -N% → 年节省）

具体一个 case 计算（中型电商，假设数字）：


ShopAgent 上线后一年：
  投入: 3 工程师 × 12 月 × $10k/月 = $360k
        LLM API: $50k
        评测体系: $30k (摊销)
        飞轮人力: 0.5 工程师 × 12 月 = $60k
  总投入: $500k

  回报:
        替代 30 人工客服: 30 × $30k × 60% (部分替代) = $540k
        CSAT 4.0 → 4.2: 复购率 +3% → 年 GMV +$300k
        黑产损失从 0.5% → 0.3%: GMV $50M × 0.2% = $100k
  总回报: $940k

  ROI: ($940k - $500k) / $500k = 88%

数字编的，但计算框架是真的。工程师汇报时按这个框架算自家数据。

使用警告：实际 agent 项目第一年 ROI 在 −50% 到 +200% 都有可能，强依赖你的 LLM 单价、人力成本基线、agent 实际质量。第一个季度别承诺具体 ROI 数字——先对齐”成功的指标长什么样”（升级到人工率、误退款率、CSAT），第二个季度有数据再算账。直接套用上面 88% 给老板会反过来咬人——他记住 88%，第二季度只跑出 30%，“承诺没兑现”远比”没承诺”代价大。

老板汇报的 narrative

工程师常常做了一大堆工程改进，汇报时却只能说”pass^1 涨了 8 个点”。老板听不懂。正确做法：


## ShopAgent Q2 优化汇报
 
### 业务结果
- CSAT: 4.0 → 4.2 (+0.2)
- 人工客服 escalation rate: 22% → 18% (-4pp)
- 误退款金额: $20k/月 → $8k/月 (-60%)
 
### 推动这些业务变化的工程改进
1. **policy 4 二次确认** (第 13 章): pass^1 从 67% → 89%
   → 直接降低误退款率 60%
2. **多轮 task completion** (第 10 章): 47% → 58%
   → 减少 escalation rate 4pp
3. **L3 对抗集** (第 16 章): 60% → 75%
   → 黑产损失 -30%
 
### 投入
- 3 个工程师 6 个月（评测体系 + ShopAgent 优化）
- LLM API 季度成本 $13k
 
### ROI
按全年口径 ROI 约 88%，2 年回本。

业务结果先行，工程改进做支撑。老板关心 ROI，工程师证明 ROI。

跟产品 / 业务对齐的常态

不要等季度汇报才聊业务指标。每月 review 是工程节奏：


每月第一周:
  - PM 出业务月报（CSAT / 转化率 / 投诉量）
  - 工程师出工程月报（pass^k 变化 / 飞轮 PR 数 / 新 failure mode）
  - 联合 review 哪些工程改进推动了哪些业务变化
  - 决定下月 ShopAgent 改进优先级

这种 cadence 让 Layer 2 和 Layer 3 不脱节。

本附录要点回顾

Layer 2 → Layer 3 映射：pass^1 → CSAT，trajectory_match → 工单一次解决率，policy_4 → 误退款率
3 个核心业务指标：升级到人工率（越低越好）/ 误退款率（合规底线） / CSAT（用户满意度）
ROI 框架不是 ROI 数字：先用框架对齐”成功的指标长什么样”，再用数据算账
第一季度别承诺 ROI 数字：实际范围 -50% 到 +200% 都有可能，承诺 88% 然后只跑出 30% 比不承诺代价大
老板汇报 narrative：先讲业务结果（升级率从 30% 降到 8%），再讲工程改进（FM-1/2/3 加固）做支撑

第 C 总结

Layer 3 产品评测不是工程师的核心工作，但工程师必须能用业务语言汇报工程成果——否则评测体系做得再好，也得不到资源继续做。

3 个核心动作：

建立工程指标 → 业务指标的初始 hypothesis
用 A/B 实验验证 hypothesis（season 内 1-2 周，避开 11/618）
每月 review 对齐

工程师不需要会算 LTV / NPS 的精确公式（那是 PM 的事），但要能在月会上说”L2 pass^k 涨 10 个点，预期带来 CSAT +0.15，希望两周后看到实际数据”。

本章来自《AI Agent 评测工程实战》开源版 · 作者「递归客」
在线阅读完整书系：inferloop.dev · 反馈与勘误：GitHub Issues

本书资源

源码仓库 · github.com/diguike/book-agent-evals
在线阅读 · inferloop.dev/agent-evals
所有书目 · inferloop.dev

继续阅读 · 同作者其他书

《Transformer 工程实战》
从注意力机制到生产部署
《自己动手写 AI Agent》
从 Claude Code 开源架构到你的第一个编程助手
《AI 时代的 CLI 工具开发实战》
用 TypeScript 构建现代 CLI 工具
《LLM Infra 工程实战》
从入门到实践
《Hermes Agent 实战》
构建会成长的个人 AI Agent
《OpenClaw 源码解析》
现代 Agent 系统的架构设计与工程实践
《Agent Memory 工程实战》
从 claude-mem 源码到企业级记忆平台
《AI Token 中转站实战》
从 0 搭建企业级 LLM 网关
《LangChain.js Agent 开发权威指南》
从 1.x 抽象到生产级 Agent
《百万级 AI Agent 平台架构》
智能客服 SaaS 实战
《源码精读》
每章一个开源仓库 · 从架构到品味
《Claude Code Skill 指南》
《Claude 插件官方指南》