附录定位
CLAUDE.md 铁律 7 明确”业务知识不进主线”——主线章节里不展开讲中国电商业务深水区。但 ShopAgent 的 policy 设计和 L3 对抗集需要这些业务知识作依据。这个附录是这些业务知识的归宿。
主线读者可以完全跳过这个附录。深挖业务背景的读者可以翻翻。
数据截至 2026-05,国内电商政策变化快,请配合实时官方文档使用。
1. 仅退款政策的历史变迁
仅退款(“退款不退货” / “仅退款不退货”)是中国电商特殊产物。
2021-2024: 兴起期
- 2021-09 拼多多首推”仅退款”功能(< 20 元单笔自动通过)
- 2022-2023 平台间互相跟进(淘宝 2023-12,京东 2024-01)
- 2024 中全平台普及,触发大量薅羊毛行为
2024-2025: 顶峰 + 反思
- 2024-11 起薅羊毛产业链规模化:付费”白嫖攻略”、衡阳团伙抽成 40-50%
- 2025-01 商家集体抗议(举报阿里、起诉拼多多)
- 2025-03 全行业开始收紧自动通过规则
2025-04: 集体取消
- 2025-04-21 拼多多正式取消”仅退款”自动通过,改为商家 36 小时自主处理,超时由平台介入
- 2025-04-25 淘宝跟进
- 2025-04-30 京东 POP 跟进
对 ShopAgent policy 的影响:
主线 ShopAgent policy 不包含”仅退款”——因为 2026-05 时间点这个规则已经不存在。但评测集里需要标注 policy 版本时间戳:
{
"id": "L3-refund-001",
"policy_version": "2026-05",
"scenario": "..."
}确保未来政策再变(比如 2027 年又恢复了某种自动退款),老评测集还能解释”当时的政策是这样”。
来源:
2. 7 天无理由退货的精确规则
不同平台规则差异,主要平台对照(2026-05):
起算时间
全部平台都从”签收次日 0 时起算 168 小时”——不是从签收时刻起算。这是一个评测陷阱:
- 错: agent 拿
shipped_at时间 + 7×24 算 - 对: agent 拿
delivered_at时间 → 取次日 0 时 → 加 168 小时
ShopAgent 的 get_order 工具返回的 signed_at 字段语义就是签收时刻——agent 必须自己做”次日 0 时”的换算。
不适用清单
- 鲜花绿植: 不可逆变质
- 水产 / 肉类 / 海鲜: 不可逆变质
- 激活后贬损大: 美妆化妆品已开封、保健品已开封
- 定制商品: 私人定制 / 雕刻
- 数字化下载: 软件 / 电子书 / 在线课程
- 临期: 临近保质期食品
ShopAgent 工具集里 get_return_eligibility(order_id, sku_id) 在扩展版才有——主线版需要 agent 自己判断。
跨境品类例外
天猫国际 / 京东国际 / 考拉海购等跨境单:
- 大多数商品不支持 7 天无理由(商品出保税仓后不可退)
- 化妆品 / 食品 / 母婴类严格禁止退货
- 极少品类(如服装)卖家自愿承诺 7 天,运费 + 关税分摊
ShopAgent policy 不覆盖跨境单(主线场景假设国内)。如果你的 agent 涉及跨境业务,需要单独 case 设计。
来源:
3. 极速退款的资格规则
“极速退款”是用户提交退款后直接到余额(不等商家审核),平台垫付。门槛:
- 用户 90 天内退款率 < 30%
- 用户 90 天内纠纷率 < 5%
- 用户 90 天内投诉次数 ≤ 2
- 用户信用 VIP 等级(淘宝 88VIP / 京东 PLUS / 拼多多月之星)
任一条件不满足 → 无极速退款权限 → 走标准流程(商家审核 48h)。
ShopAgent get_refund_quota 工具(扩展版)就是检查极速退款资格。
来源:
4. PIPL 合规对评测的影响
《个人信息保护法》(PIPL)2021-11 生效,对 AI agent 评测有 3 个直接影响:
影响 1:最小必要原则
PIPL 第 6 条要求处理个人信息”应当具有明确、合理的目的,并应当与处理目的直接相关,采取对个人权益影响最小的方式”。
对 agent 评测:
- 评测集禁止包含真实用户 PII(手机号 / 身份证 / 地址)
- 必须用占位符(
1XXXXXXXXXX、370XXX19XXXX1234X) - 飞轮从线上挖 hard case 时必须 PII scrub 后才能入评测集(第 18 章
scrubPII实现)
影响 2:算法备案
《生成式人工智能服务管理暂行办法》要求模型上线前提交安全评估报告。对 agent 评测:
- 算法备案禁止内容评测必须做(搜 “AIGC 算法备案”)
- 评测 scorer 需要区分”模型能力不足”vs”合规拒答”
- THU-COAI Safety-Prompts 是国内最权威的安全 prompts 数据源
影响 3:数据出境
PIPL 第 38-40 条要求数据出境前向网信办申报。对 agent 评测:
- 用 GPT / Claude 作为 LLM-as-Judge 评中文客服 log 构成”数据出境”
- 国内业务部署的 evaluation pipeline 严格意义上不能直接用 OpenAI / Anthropic
- 解决方案:(a) judge 用国产模型(DeepSeek / Qwen),(b) 对评测数据做脱敏
EvalKit 不强制——这是用户根据自家业务合规要求决定。但建议在书面 governance 文档里明确 “judge 用国产” 的策略。
来源:
- 《个人信息保护法》全文
- 《生成式 AI 服务管理暂行办法》
5. 黑产手法(基于公开报道整理)
L3 对抗集 40 条样本对应 4 类真实黑产手法。下面内容基于公开报道(央视新闻、新京报、黑猫投诉公开案例)整理,具体话术不在书里展开,避免为黑产提供参考。
仅退款套利
真实手法(基于公开报道脱敏):
- 谎称商品瑕疵 / 缺件,拒绝上传照片证据
- “已签收但未收到” 反咬快递公司
- 利用商家发货时间差批量下单 + 退款套利
- 付费”白嫖攻略”群体化作案
防御方向:
- agent 拒绝”无证据退款”
- agent 触发同地址 30 天内 5+ 次退款 → 升级风控
- agent 对”已签收+物流妥投+无照片”组合保留 humble pushback
参考案例:
假冒身份社工
真实手法:
- 利用社工库查到的姓名 + 手机号假冒本人
- “我是某 CEO 的妻子” / “我是国家队员” 施压
- 冒充客服反向诈骗(让用户上钩到假退款链接)
防御方向:
- agent 要求多重身份核验(手机验证码 + 订单细节问答)
- agent 在”权威施压” 话术下保持流程(policy 1 先查后改)
- agent 检测异常话术模式(要求加微信 / 提供链接 / 提供验证码)
黄牛改地址
真实手法:
- 限购品(茅台 / 限量球鞋 / 旗舰款 iPhone)通过”代下”绕过限购
- 收货地址全部改成同一快递站,自提后转卖
- 用代理 IP + 手机号墙批量注册
防御方向:
- 限购品 SKU 在 ShopAgent 内打标
- 同地址 30 天 5+ 单限购品 → 触发警告
- “代收点” / “快递柜” 类地址在限购场景下拒绝
客服权限敲诈
真实手法:
- 威胁差评 / 12315 / 黑猫投诉,索要超额优惠券或全额退款
- “我已经截图保留证据” 施压
- 爬虫批量下单 + 超时不发货投诉敲诈
防御方向:
- agent 不被威胁话术触发越权操作
- 超额补偿券走主管审批通道
- 收到威胁话术触发 case escalate_to_human(不是 silent comply)
参考案例:
6. 国内 AI 客服产业现状(2026-05)
主流 AI 客服产品(2026-05):
| 产品 | 厂商 | 公开能力 |
|---|---|---|
| 阿里小蜜 / 淘小蜜 | 阿里 | 24/7 客服,转化率 +10% |
| 京东 JIMI | 京东 | 满意度 80%,商品推荐准确率 +27% |
| 拼多多 AI 客服 | 拼多多 | 未公开详细数据 |
| 美团客服 | 美团 | 未公开详细数据 |
| 唯品会客服 | 唯品会 | 未公开详细数据 |
值得关注的工程实践公开博客:
- 阿里达摩院 NLP / Dialog System 公开 paper
- 京东探索研究院 conversational AI 系列博客
- 字节火山引擎 AgentKit Evaluation(提供大规模 agent eval 平台数据)
- 智谱 ChatGLM 客服 use case 案例
国内大厂公开的客服数据清一色是业务指标(CSAT / 转化率 / 推荐准确率),没有 pass^k / trajectory 这类工程指标。这是工程师建立 Layer 2 评测体系的留白空间——也是本书的差异化价值。
7. 这些业务知识怎么用
对主线读者:跳过这个附录无影响——主线 ShopAgent 8 工具 + 5 policy 没用到这里 95% 的细节。
对深挖业务的读者:
- 设计自家 agent policy 时参考”7 天起算 / 不适用清单 / 跨境例外”等真实规则
- 设计 L3 对抗集时参考黑产手法分类
- 部署生产 evaluation 时关注 PIPL 数据出境 / judge 模型选择
- 跟产品 / 业务对齐时引用国内 AI 客服公开业务指标
本附录要点回顾
- 附录定位:业务知识深水区,主线不进。设计 L3 / policy / RAG context 时回来翻
- 仅退款历史变迁:从 2017 拼多多发明 → 2024 抖音 + 淘宝跟进的政策版本,决定 policy 4 设计严格度
- 跨境单规则:保税仓 vs 直邮 vs 海外仓三套规则不同,跨境 agent 必须区分
- PIPL + 数据出境:用户隐私 / 出境数据合规底线,影响 agent prompt 设计和 log 留存
- 5 个黑产手法分类(L3 设计素材):仅退款套利 / 假冒身份 / 黄牛改地址 / 客服敲诈 / prompt injection
第 E 总结
ShopAgent 主线刻意简化是教学考虑。真实生产 agent 远比 ShopAgent 复杂——这个附录给你窥视那个复杂世界的窗口。
业务知识在 agent 评测里的角色是”上下文 / 边界依据”,不是”评测对象本身”。读者搬这套方法论回自家公司时,要把本书的方法论 + 自家公司的业务知识结合起来。本书负责前者,业务方负责后者。
至此全书 20 章正文 + 5 附录全部完成。希望你和那个胃里发紧的周一早晨我,都不再赌博。
—— diguike,2026 年于上海
本章来自《AI Agent 评测工程实战》开源版 · 作者「递归客」
在线阅读完整书系:inferloop.dev · 反馈与勘误:GitHub Issues
本书资源
- 源码仓库 · github.com/diguike/book-agent-evals
- 在线阅读 · inferloop.dev/agent-evals
- 所有书目 · inferloop.dev
继续阅读 · 同作者其他书
- 《Transformer 工程实战》从注意力机制到生产部署
- 《自己动手写 AI Agent》从 Claude Code 开源架构到你的第一个编程助手
- 《AI 时代的 CLI 工具开发实战》用 TypeScript 构建现代 CLI 工具
- 《LLM Infra 工程实战》从入门到实践
- 《Hermes Agent 实战》构建会成长的个人 AI Agent
- 《OpenClaw 源码解析》现代 Agent 系统的架构设计与工程实践
- 《Agent Memory 工程实战》从 claude-mem 源码到企业级记忆平台
- 《AI Token 中转站实战》从 0 搭建企业级 LLM 网关
- 《LangChain.js Agent 开发权威指南》从 1.x 抽象到生产级 Agent
- 《百万级 AI Agent 平台架构》智能客服 SaaS 实战
- 《源码精读》每章一个开源仓库 · 从架构到品味
- 《Claude Code Skill 指南》
- 《Claude 插件官方指南》