Skip to Content
AI Agent 评测工程实战附录 C 与业务指标对齐

附录定位

主线 20 章基本都在 Layer 2(agent 评测)。Layer 3(产品评测)只在第 1 章金字塔里点到。这个附录补 Layer 3 的工程实操——当老板问 “agent 上线后业务有多少改善”,怎么用工程指标搭起到业务指标的桥

读者群里”翻完 20 章主线”和”读这个附录”的人是不同的——这个附录写给被叫去汇报的工程师。

三层指标体系

Layer 3 业务: CSAT / NPS / 转化率 / 留存率 / ARR ↑ 由 Layer 2 推动 Layer 2 工程: pass^1 / pass^k / trajectory / policy / judge ↑ 由 Layer 1 决定 Layer 1 模型: MMLU / HumanEval / Arena Elo

Layer 3 是滞后指标——用户用了一段时间才有 CSAT 数据。Layer 2 是前置指标——评测集分数能立刻看到。

工程师做 agent 评测,Layer 2 是日常工作,Layer 3 是给老板看的。两者必须有映射关系

国内 AI 客服公开的业务指标

研究阶段拿到的国内大厂 AI 客服公开数据:

厂商公开业务指标来源
阿里小蜜 / 淘小蜜转化率 +10%、退款挽单率 20%阿里达摩院
京东 JIMI满意度 80%、商品推荐准确率 +27%京东开发者博客
拼多多 AI 客服不公开-
美团客服不公开-

注意几件事

  1. 国内大厂只公开业务指标(CSAT / 转化率 / 推荐准确率),没有工程指标(pass^k / policy / trajectory)。这是因为业务指标”好看”,工程指标”难看”
  2. 工程师必须自己建立业务指标 ↔ 工程指标的对应关系,否则 Layer 2 改进无法跟老板沟通
  3. 跨厂商业务指标不可比(CSAT 算法不一样、用户基线不同)。只看自家纵向变化

工程指标 → 业务指标的映射

ShopAgent 这种电商客服场景下经验映射:

工程指标涨 N pp业务指标可能变化
L1 pass^1 +5ppCSAT +0.1-0.2 颗星
L2 task_completion +10pp人工 escalation rate -3-5pp
trajectory_subset (含 policy 1 先查后改) +5pp误退款率 -50%
L3 forbidden_tools +10pp黑产损失率 -30%
response_latency -200msCSAT +0.05 颗星(不显著但可累积)

这些映射不是普世的。每家公司业务不一样、用户基线不一样,映射系数都要自己跑 A/B 测出来。但这张表能作为初始 hypothesis。

A/B 实验

最直接的 Layer 2 → Layer 3 验证方法是 A/B 实验:

线上流量 50/50 split A 组(control):用 v1 ShopAgent B 组(treatment):用 v2 ShopAgent(改进过的) 跑 7-14 天,收集 Layer 3 指标 A vs B 显著性检验

A/B 实验工程:

Day -7: 决定要测的 hypothesis("L2 +10pp 是否让 CSAT +0.15") Day -3: 拉到 1% 流量做 smoke test,看实验框架本身有没 bug Day 0: 开 50/50 split Day 7: 收阶段性指标 Day 14: 终结实验,做显著性分析 Day 21: 写 readout 给老板

关键陷阱

  1. 流量量:CSAT 这种”评分 + 缺失”指标需要大量样本才显著。10 万次对话 + 30% 评分率 = 3 万 CSAT 数据点 = SE ~0.5-1 个点。实验要跑足 1-2 周才有显著性
  2. 季节性:双 11 / 618 期间的 CSAT 跟平时不可比,A/B 实验要避开
  3. 新奇效应:新 agent 一开始 CSAT 涨可能是”用户觉得新鲜”,2-3 周后回归基线
  4. 下游污染:A 用户在 1 天后跟 B 用户在群里聊 → A 用户看到 B 的 ShopAgent 表现 → A 用户行为变化。严格 A/B 实验需要 user-level random,不是 session-level

小流量场景怎么办:如果你的产品日活只有 1000 次对话(很多中小团队就这规模),50/50 A/B 要跑 4-6 周才有统计显著性,业务等不起。两个替代方案:

  • Bandit(Multi-Armed Bandit):动态分配流量,模型表现越好的越多流量。Adapt 速度比 A/B 快 3-5 倍,少量流量也能收敛
  • Sequential testing:每天看一次指标,到达 pre-set 阈值就停。比固定 14 天的 A/B 更快终止

哪个都比”硬等 A/B 数据”好。日活 < 5000 强烈建议用 bandit。

衡量 ROI

老板真正想问的是 “投入 X 拿到 Y 回报”。Agent ROI 计算:

投入: - 工程师 ×N × M 月 (开发 + 维护) - LLM API cost (年 cost = 每日对话数 × 单次 cost × 365) - 评测体系搭建(一次性投入,按 2 年摊销) - 飞轮人力(1 人 × 4-6 小时/周) 回报: - 人工客服替代节省(年节省 = 人工 cost - LLM cost - 工程 cost) - CSAT 提升带来的 LTV 提升(CSAT +0.5 → 复购率 +5% → 年 LTV 增加 X) - 转化率提升带来的 GMV 增加(转化率 +N% → 月新增 GMV) - 黑产损失减少(黑产损失率 -N% → 年节省)

具体一个 case 计算(中型电商,假设数字):

ShopAgent 上线后一年: 投入: 3 工程师 × 12 月 × $10k/月 = $360k LLM API: $50k 评测体系: $30k (摊销) 飞轮人力: 0.5 工程师 × 12 月 = $60k 总投入: $500k 回报: 替代 30 人工客服: 30 × $30k × 60% (部分替代) = $540k CSAT 4.0 → 4.2: 复购率 +3% → 年 GMV +$300k 黑产损失从 0.5% → 0.3%: GMV $50M × 0.2% = $100k 总回报: $940k ROI: ($940k - $500k) / $500k = 88%

数字编的,但计算框架是真的。工程师汇报时按这个框架算自家数据。

使用警告:实际 agent 项目第一年 ROI 在 −50% 到 +200% 都有可能,强依赖你的 LLM 单价、人力成本基线、agent 实际质量。第一个季度别承诺具体 ROI 数字——先对齐”成功的指标长什么样”(升级到人工率、误退款率、CSAT),第二个季度有数据再算账。直接套用上面 88% 给老板会反过来咬人——他记住 88%,第二季度只跑出 30%,“承诺没兑现”远比”没承诺”代价大。

老板汇报的 narrative

工程师常常做了一大堆工程改进,汇报时却只能说”pass^1 涨了 8 个点”。老板听不懂。正确做法

## ShopAgent Q2 优化汇报 ### 业务结果 - CSAT: 4.0 → 4.2 (+0.2) - 人工客服 escalation rate: 22% → 18% (-4pp) - 误退款金额: $20k/月 → $8k/月 (-60%) ### 推动这些业务变化的工程改进 1. **policy 4 二次确认** (第 13 章): pass^1 从 67% → 89% → 直接降低误退款率 60% 2. **多轮 task completion** (第 10 章): 47% → 58% → 减少 escalation rate 4pp 3. **L3 对抗集** (第 16 章): 60% → 75% → 黑产损失 -30% ### 投入 - 3 个工程师 6 个月(评测体系 + ShopAgent 优化) - LLM API 季度成本 $13k ### ROI 按全年口径 ROI 约 88%,2 年回本。

业务结果先行,工程改进做支撑。老板关心 ROI,工程师证明 ROI。

跟产品 / 业务对齐的常态

不要等季度汇报才聊业务指标。每月 review 是工程节奏:

每月第一周: - PM 出业务月报(CSAT / 转化率 / 投诉量) - 工程师出工程月报(pass^k 变化 / 飞轮 PR 数 / 新 failure mode) - 联合 review 哪些工程改进推动了哪些业务变化 - 决定下月 ShopAgent 改进优先级

这种 cadence 让 Layer 2 和 Layer 3 不脱节。

本附录要点回顾

  • Layer 2 → Layer 3 映射:pass^1 → CSAT,trajectory_match → 工单一次解决率,policy_4 → 误退款率
  • 3 个核心业务指标:升级到人工率(越低越好)/ 误退款率(合规底线) / CSAT(用户满意度)
  • ROI 框架不是 ROI 数字:先用框架对齐”成功的指标长什么样”,再用数据算账
  • 第一季度别承诺 ROI 数字:实际范围 -50% 到 +200% 都有可能,承诺 88% 然后只跑出 30% 比不承诺代价大
  • 老板汇报 narrative:先讲业务结果(升级率从 30% 降到 8%),再讲工程改进(FM-1/2/3 加固)做支撑

第 C 总结

Layer 3 产品评测不是工程师的核心工作,但工程师必须能用业务语言汇报工程成果——否则评测体系做得再好,也得不到资源继续做。

3 个核心动作:

  1. 建立工程指标 → 业务指标的初始 hypothesis
  2. 用 A/B 实验验证 hypothesis(season 内 1-2 周,避开 11/618)
  3. 每月 review 对齐

工程师不需要会算 LTV / NPS 的精确公式(那是 PM 的事),但要能在月会上说”L2 pass^k 涨 10 个点,预期带来 CSAT +0.15,希望两周后看到实际数据”。


本章来自《AI Agent 评测工程实战》开源版 · 作者「递归客」
在线阅读完整书系:inferloop.dev · 反馈与勘误:GitHub Issues

本书资源

继续阅读 · 同作者其他书

Last updated on