Appendix E Business Context · AI Agent 评测工程实战

附录定位

CLAUDE.md 铁律 7 明确”业务知识不进主线”——主线章节里不展开讲中国电商业务深水区。但 ShopAgent 的 policy 设计和 L3 对抗集需要这些业务知识作依据。这个附录是这些业务知识的归宿。

主线读者可以完全跳过这个附录。深挖业务背景的读者可以翻翻。

数据截至 2026-05，国内电商政策变化快，请配合实时官方文档使用。

1. 仅退款政策的历史变迁

仅退款（“退款不退货” / “仅退款不退货”）是中国电商特殊产物。

2021-2024: 兴起期

2021-09 拼多多首推”仅退款”功能（< 20 元单笔自动通过）
2022-2023 平台间互相跟进（淘宝 2023-12，京东 2024-01）
2024 中全平台普及，触发大量薅羊毛行为

2024-2025: 顶峰 + 反思

2024-11 起薅羊毛产业链规模化：付费”白嫖攻略”、衡阳团伙抽成 40-50%
2025-01 商家集体抗议（举报阿里、起诉拼多多）
2025-03 全行业开始收紧自动通过规则

2025-04: 集体取消

2025-04-21 拼多多正式取消”仅退款”自动通过，改为商家 36 小时自主处理，超时由平台介入
2025-04-25 淘宝跟进
2025-04-30 京东 POP 跟进

对 ShopAgent policy 的影响：

主线 ShopAgent policy 不包含”仅退款”——因为 2026-05 时间点这个规则已经不存在。但评测集里需要标注 policy 版本时间戳：


{
  "id": "L3-refund-001",
  "policy_version": "2026-05",
  "scenario": "..."
}

确保未来政策再变（比如 2027 年又恢复了某种自动退款），老评测集还能解释”当时的政策是这样”。

来源：

2. 7 天无理由退货的精确规则

不同平台规则差异，主要平台对照（2026-05）：

起算时间

全部平台都从”签收次日 0 时起算 168 小时”——不是从签收时刻起算。这是一个评测陷阱：

错: agent 拿 shipped_at 时间 + 7×24 算
对: agent 拿 delivered_at 时间 → 取次日 0 时 → 加 168 小时

ShopAgent 的 get_order 工具返回的 signed_at 字段语义就是签收时刻——agent 必须自己做”次日 0 时”的换算。

不适用清单

鲜花绿植: 不可逆变质
水产 / 肉类 / 海鲜: 不可逆变质
激活后贬损大: 美妆化妆品已开封、保健品已开封
定制商品: 私人定制 / 雕刻
数字化下载: 软件 / 电子书 / 在线课程
临期: 临近保质期食品

ShopAgent 工具集里 get_return_eligibility(order_id, sku_id) 在扩展版才有——主线版需要 agent 自己判断。

跨境品类例外

天猫国际 / 京东国际 / 考拉海购等跨境单：

大多数商品不支持 7 天无理由（商品出保税仓后不可退）
化妆品 / 食品 / 母婴类严格禁止退货
极少品类（如服装）卖家自愿承诺 7 天，运费 + 关税分摊

ShopAgent policy 不覆盖跨境单（主线场景假设国内）。如果你的 agent 涉及跨境业务，需要单独 case 设计。

来源：

3. 极速退款的资格规则

“极速退款”是用户提交退款后直接到余额（不等商家审核），平台垫付。门槛：

用户 90 天内退款率 < 30%
用户 90 天内纠纷率 < 5%
用户 90 天内投诉次数 ≤ 2
用户信用 VIP 等级（淘宝 88VIP / 京东 PLUS / 拼多多月之星）

任一条件不满足 → 无极速退款权限 → 走标准流程（商家审核 48h）。

ShopAgent get_refund_quota 工具（扩展版）就是检查极速退款资格。

来源：

极速退款资格 - 淘铺王

4. PIPL 合规对评测的影响

《个人信息保护法》（PIPL）2021-11 生效，对 AI agent 评测有 3 个直接影响：

影响 1：最小必要原则

PIPL 第 6 条要求处理个人信息”应当具有明确、合理的目的，并应当与处理目的直接相关，采取对个人权益影响最小的方式”。

对 agent 评测：

评测集禁止包含真实用户 PII（手机号 / 身份证 / 地址）
必须用占位符（1XXXXXXXXXX、370XXX19XXXX1234X）
飞轮从线上挖 hard case 时必须 PII scrub 后才能入评测集（第 18 章 scrubPII 实现）

影响 2：算法备案

《生成式人工智能服务管理暂行办法》要求模型上线前提交安全评估报告。对 agent 评测：

算法备案禁止内容评测必须做（搜 “AIGC 算法备案”）
评测 scorer 需要区分”模型能力不足”vs”合规拒答”
THU-COAI Safety-Prompts 是国内最权威的安全 prompts 数据源

影响 3：数据出境

PIPL 第 38-40 条要求数据出境前向网信办申报。对 agent 评测：

用 GPT / Claude 作为 LLM-as-Judge 评中文客服 log 构成”数据出境”
国内业务部署的 evaluation pipeline 严格意义上不能直接用 OpenAI / Anthropic
解决方案：(a) judge 用国产模型（DeepSeek / Qwen），(b) 对评测数据做脱敏

EvalKit 不强制——这是用户根据自家业务合规要求决定。但建议在书面 governance 文档里明确 “judge 用国产” 的策略。

来源：

《个人信息保护法》全文
《生成式 AI 服务管理暂行办法》

5. 黑产手法（基于公开报道整理）

L3 对抗集 40 条样本对应 4 类真实黑产手法。下面内容基于公开报道（央视新闻、新京报、黑猫投诉公开案例）整理，具体话术不在书里展开，避免为黑产提供参考。

仅退款套利

真实手法（基于公开报道脱敏）：

谎称商品瑕疵 / 缺件，拒绝上传照片证据
“已签收但未收到” 反咬快递公司
利用商家发货时间差批量下单 + 退款套利
付费”白嫖攻略”群体化作案

防御方向：

agent 拒绝”无证据退款”
agent 触发同地址 30 天内 5+ 次退款 → 升级风控
agent 对”已签收+物流妥投+无照片”组合保留 humble pushback

参考案例：

假冒身份社工

真实手法：

利用社工库查到的姓名 + 手机号假冒本人
“我是某 CEO 的妻子” / “我是国家队员” 施压
冒充客服反向诈骗（让用户上钩到假退款链接）

防御方向：

agent 要求多重身份核验（手机验证码 + 订单细节问答）
agent 在”权威施压” 话术下保持流程（policy 1 先查后改）
agent 检测异常话术模式（要求加微信 / 提供链接 / 提供验证码）

黄牛改地址

真实手法：

限购品（茅台 / 限量球鞋 / 旗舰款 iPhone）通过”代下”绕过限购
收货地址全部改成同一快递站，自提后转卖
用代理 IP + 手机号墙批量注册

防御方向：

限购品 SKU 在 ShopAgent 内打标
同地址 30 天 5+ 单限购品 → 触发警告
“代收点” / “快递柜” 类地址在限购场景下拒绝

客服权限敲诈

真实手法：

威胁差评 / 12315 / 黑猫投诉，索要超额优惠券或全额退款
“我已经截图保留证据” 施压
爬虫批量下单 + 超时不发货投诉敲诈

防御方向：

agent 不被威胁话术触发越权操作
超额补偿券走主管审批通道
收到威胁话术触发 case escalate_to_human（不是 silent comply）

参考案例：

6. 国内 AI 客服产业现状（2026-05）

主流 AI 客服产品（2026-05）：

产品	厂商	公开能力
阿里小蜜 / 淘小蜜	阿里	24/7 客服，转化率 +10%
京东 JIMI	京东	满意度 80%，商品推荐准确率 +27%
拼多多 AI 客服	拼多多	未公开详细数据
美团客服	美团	未公开详细数据
唯品会客服	唯品会	未公开详细数据

值得关注的工程实践公开博客：

阿里达摩院 NLP / Dialog System 公开 paper
京东探索研究院 conversational AI 系列博客
字节火山引擎 AgentKit Evaluation（提供大规模 agent eval 平台数据）
智谱 ChatGLM 客服 use case 案例

国内大厂公开的客服数据清一色是业务指标（CSAT / 转化率 / 推荐准确率），没有 pass^k / trajectory 这类工程指标。这是工程师建立 Layer 2 评测体系的留白空间——也是本书的差异化价值。

7. 这些业务知识怎么用

对主线读者：跳过这个附录无影响——主线 ShopAgent 8 工具 + 5 policy 没用到这里 95% 的细节。

对深挖业务的读者：

设计自家 agent policy 时参考”7 天起算 / 不适用清单 / 跨境例外”等真实规则
设计 L3 对抗集时参考黑产手法分类
部署生产 evaluation 时关注 PIPL 数据出境 / judge 模型选择
跟产品 / 业务对齐时引用国内 AI 客服公开业务指标

本附录要点回顾

附录定位：业务知识深水区，主线不进。设计 L3 / policy / RAG context 时回来翻
仅退款历史变迁：从 2017 拼多多发明 → 2024 抖音 + 淘宝跟进的政策版本，决定 policy 4 设计严格度
跨境单规则：保税仓 vs 直邮 vs 海外仓三套规则不同，跨境 agent 必须区分
PIPL + 数据出境：用户隐私 / 出境数据合规底线，影响 agent prompt 设计和 log 留存
5 个黑产手法分类（L3 设计素材）：仅退款套利 / 假冒身份 / 黄牛改地址 / 客服敲诈 / prompt injection

第 E 总结

ShopAgent 主线刻意简化是教学考虑。真实生产 agent 远比 ShopAgent 复杂——这个附录给你窥视那个复杂世界的窗口。

业务知识在 agent 评测里的角色是”上下文 / 边界依据”，不是”评测对象本身”。读者搬这套方法论回自家公司时，要把本书的方法论 + 自家公司的业务知识结合起来。本书负责前者，业务方负责后者。

至此全书 20 章正文 + 5 附录全部完成。希望你和那个胃里发紧的周一早晨我，都不再赌博。

—— diguike，2026 年于上海

本章来自《AI Agent 评测工程实战》开源版 · 作者「递归客」
在线阅读完整书系：inferloop.dev · 反馈与勘误：GitHub Issues

本书资源

源码仓库 · github.com/diguike/book-agent-evals
在线阅读 · inferloop.dev/agent-evals
所有书目 · inferloop.dev

继续阅读 · 同作者其他书

《Transformer 工程实战》
从注意力机制到生产部署
《自己动手写 AI Agent》
从 Claude Code 开源架构到你的第一个编程助手
《AI 时代的 CLI 工具开发实战》
用 TypeScript 构建现代 CLI 工具
《LLM Infra 工程实战》
从入门到实践
《Hermes Agent 实战》
构建会成长的个人 AI Agent
《OpenClaw 源码解析》
现代 Agent 系统的架构设计与工程实践
《Agent Memory 工程实战》
从 claude-mem 源码到企业级记忆平台
《AI Token 中转站实战》
从 0 搭建企业级 LLM 网关
《LangChain.js Agent 开发权威指南》
从 1.x 抽象到生产级 Agent
《百万级 AI Agent 平台架构》
智能客服 SaaS 实战
《源码精读》
每章一个开源仓库 · 从架构到品味
《Claude Code Skill 指南》
《Claude 插件官方指南》