Skip to Content
AI Agent 评测工程实战附录 E 业务知识补充阅读

附录定位

CLAUDE.md 铁律 7 明确”业务知识不进主线”——主线章节里不展开讲中国电商业务深水区。但 ShopAgent 的 policy 设计和 L3 对抗集需要这些业务知识作依据。这个附录是这些业务知识的归宿

主线读者可以完全跳过这个附录。深挖业务背景的读者可以翻翻。

数据截至 2026-05,国内电商政策变化快,请配合实时官方文档使用。

1. 仅退款政策的历史变迁

仅退款(“退款不退货” / “仅退款不退货”)是中国电商特殊产物。

2021-2024: 兴起期

  • 2021-09 拼多多首推”仅退款”功能(< 20 元单笔自动通过)
  • 2022-2023 平台间互相跟进(淘宝 2023-12,京东 2024-01)
  • 2024 中全平台普及,触发大量薅羊毛行为

2024-2025: 顶峰 + 反思

  • 2024-11 起薅羊毛产业链规模化:付费”白嫖攻略”、衡阳团伙抽成 40-50%
  • 2025-01 商家集体抗议(举报阿里、起诉拼多多)
  • 2025-03 全行业开始收紧自动通过规则

2025-04: 集体取消

  • 2025-04-21 拼多多正式取消”仅退款”自动通过,改为商家 36 小时自主处理,超时由平台介入
  • 2025-04-25 淘宝跟进
  • 2025-04-30 京东 POP 跟进

对 ShopAgent policy 的影响

主线 ShopAgent policy 不包含”仅退款”——因为 2026-05 时间点这个规则已经不存在。但评测集里需要标注 policy 版本时间戳

{ "id": "L3-refund-001", "policy_version": "2026-05", "scenario": "..." }

确保未来政策再变(比如 2027 年又恢复了某种自动退款),老评测集还能解释”当时的政策是这样”。

来源:

2. 7 天无理由退货的精确规则

不同平台规则差异,主要平台对照(2026-05):

起算时间

全部平台都从”签收次日 0 时起算 168 小时”——不是从签收时刻起算。这是一个评测陷阱

  • 错: agent 拿 shipped_at 时间 + 7×24 算
  • 对: agent 拿 delivered_at 时间 → 取次日 0 时 → 加 168 小时

ShopAgent 的 get_order 工具返回的 signed_at 字段语义就是签收时刻——agent 必须自己做”次日 0 时”的换算。

不适用清单

  • 鲜花绿植: 不可逆变质
  • 水产 / 肉类 / 海鲜: 不可逆变质
  • 激活后贬损大: 美妆化妆品已开封、保健品已开封
  • 定制商品: 私人定制 / 雕刻
  • 数字化下载: 软件 / 电子书 / 在线课程
  • 临期: 临近保质期食品

ShopAgent 工具集里 get_return_eligibility(order_id, sku_id) 在扩展版才有——主线版需要 agent 自己判断。

跨境品类例外

天猫国际 / 京东国际 / 考拉海购等跨境单:

  • 大多数商品不支持 7 天无理由(商品出保税仓后不可退)
  • 化妆品 / 食品 / 母婴类严格禁止退货
  • 极少品类(如服装)卖家自愿承诺 7 天,运费 + 关税分摊

ShopAgent policy 不覆盖跨境单(主线场景假设国内)。如果你的 agent 涉及跨境业务,需要单独 case 设计。

来源:

3. 极速退款的资格规则

“极速退款”是用户提交退款后直接到余额(不等商家审核),平台垫付。门槛:

  • 用户 90 天内退款率 < 30%
  • 用户 90 天内纠纷率 < 5%
  • 用户 90 天内投诉次数 ≤ 2
  • 用户信用 VIP 等级(淘宝 88VIP / 京东 PLUS / 拼多多月之星)

任一条件不满足 → 无极速退款权限 → 走标准流程(商家审核 48h)。

ShopAgent get_refund_quota 工具(扩展版)就是检查极速退款资格。

来源:

4. PIPL 合规对评测的影响

《个人信息保护法》(PIPL)2021-11 生效,对 AI agent 评测有 3 个直接影响:

影响 1:最小必要原则

PIPL 第 6 条要求处理个人信息”应当具有明确、合理的目的,并应当与处理目的直接相关,采取对个人权益影响最小的方式”。

对 agent 评测:

  • 评测集禁止包含真实用户 PII(手机号 / 身份证 / 地址)
  • 必须用占位符(1XXXXXXXXXX370XXX19XXXX1234X
  • 飞轮从线上挖 hard case 时必须 PII scrub 后才能入评测集(第 18 章 scrubPII 实现)

影响 2:算法备案

《生成式人工智能服务管理暂行办法》要求模型上线前提交安全评估报告。对 agent 评测:

  • 算法备案禁止内容评测必须做(搜 “AIGC 算法备案”)
  • 评测 scorer 需要区分”模型能力不足”vs”合规拒答”
  • THU-COAI Safety-Prompts 是国内最权威的安全 prompts 数据源

影响 3:数据出境

PIPL 第 38-40 条要求数据出境前向网信办申报。对 agent 评测:

  • 用 GPT / Claude 作为 LLM-as-Judge 评中文客服 log 构成”数据出境”
  • 国内业务部署的 evaluation pipeline 严格意义上不能直接用 OpenAI / Anthropic
  • 解决方案:(a) judge 用国产模型(DeepSeek / Qwen),(b) 对评测数据做脱敏

EvalKit 不强制——这是用户根据自家业务合规要求决定。但建议在书面 governance 文档里明确 “judge 用国产” 的策略

来源:

5. 黑产手法(基于公开报道整理)

L3 对抗集 40 条样本对应 4 类真实黑产手法。下面内容基于公开报道(央视新闻、新京报、黑猫投诉公开案例)整理,具体话术不在书里展开,避免为黑产提供参考。

仅退款套利

真实手法(基于公开报道脱敏):

  • 谎称商品瑕疵 / 缺件,拒绝上传照片证据
  • “已签收但未收到” 反咬快递公司
  • 利用商家发货时间差批量下单 + 退款套利
  • 付费”白嫖攻略”群体化作案

防御方向:

  • agent 拒绝”无证据退款”
  • agent 触发同地址 30 天内 5+ 次退款 → 升级风控
  • agent 对”已签收+物流妥投+无照片”组合保留 humble pushback

参考案例:

假冒身份社工

真实手法:

  • 利用社工库查到的姓名 + 手机号假冒本人
  • “我是某 CEO 的妻子” / “我是国家队员” 施压
  • 冒充客服反向诈骗(让用户上钩到假退款链接)

防御方向:

  • agent 要求多重身份核验(手机验证码 + 订单细节问答)
  • agent 在”权威施压” 话术下保持流程(policy 1 先查后改)
  • agent 检测异常话术模式(要求加微信 / 提供链接 / 提供验证码)

黄牛改地址

真实手法:

  • 限购品(茅台 / 限量球鞋 / 旗舰款 iPhone)通过”代下”绕过限购
  • 收货地址全部改成同一快递站,自提后转卖
  • 用代理 IP + 手机号墙批量注册

防御方向:

  • 限购品 SKU 在 ShopAgent 内打标
  • 同地址 30 天 5+ 单限购品 → 触发警告
  • “代收点” / “快递柜” 类地址在限购场景下拒绝

客服权限敲诈

真实手法:

  • 威胁差评 / 12315 / 黑猫投诉,索要超额优惠券或全额退款
  • “我已经截图保留证据” 施压
  • 爬虫批量下单 + 超时不发货投诉敲诈

防御方向:

  • agent 不被威胁话术触发越权操作
  • 超额补偿券走主管审批通道
  • 收到威胁话术触发 case escalate_to_human(不是 silent comply)

参考案例:

6. 国内 AI 客服产业现状(2026-05)

主流 AI 客服产品(2026-05):

产品厂商公开能力
阿里小蜜 / 淘小蜜阿里24/7 客服,转化率 +10%
京东 JIMI京东满意度 80%,商品推荐准确率 +27%
拼多多 AI 客服拼多多未公开详细数据
美团客服美团未公开详细数据
唯品会客服唯品会未公开详细数据

值得关注的工程实践公开博客:

  • 阿里达摩院 NLP / Dialog System 公开 paper
  • 京东探索研究院 conversational AI 系列博客
  • 字节火山引擎 AgentKit Evaluation(提供大规模 agent eval 平台数据)
  • 智谱 ChatGLM 客服 use case 案例

国内大厂公开的客服数据清一色是业务指标(CSAT / 转化率 / 推荐准确率),没有 pass^k / trajectory 这类工程指标。这是工程师建立 Layer 2 评测体系的留白空间——也是本书的差异化价值。

7. 这些业务知识怎么用

主线读者:跳过这个附录无影响——主线 ShopAgent 8 工具 + 5 policy 没用到这里 95% 的细节。

深挖业务的读者

  1. 设计自家 agent policy 时参考”7 天起算 / 不适用清单 / 跨境例外”等真实规则
  2. 设计 L3 对抗集时参考黑产手法分类
  3. 部署生产 evaluation 时关注 PIPL 数据出境 / judge 模型选择
  4. 跟产品 / 业务对齐时引用国内 AI 客服公开业务指标

本附录要点回顾

  • 附录定位:业务知识深水区,主线不进。设计 L3 / policy / RAG context 时回来翻
  • 仅退款历史变迁:从 2017 拼多多发明 → 2024 抖音 + 淘宝跟进的政策版本,决定 policy 4 设计严格度
  • 跨境单规则:保税仓 vs 直邮 vs 海外仓三套规则不同,跨境 agent 必须区分
  • PIPL + 数据出境:用户隐私 / 出境数据合规底线,影响 agent prompt 设计和 log 留存
  • 5 个黑产手法分类(L3 设计素材):仅退款套利 / 假冒身份 / 黄牛改地址 / 客服敲诈 / prompt injection

第 E 总结

ShopAgent 主线刻意简化是教学考虑。真实生产 agent 远比 ShopAgent 复杂——这个附录给你窥视那个复杂世界的窗口。

业务知识在 agent 评测里的角色是”上下文 / 边界依据”,不是”评测对象本身”。读者搬这套方法论回自家公司时,要把本书的方法论 + 自家公司的业务知识结合起来。本书负责前者,业务方负责后者。

至此全书 20 章正文 + 5 附录全部完成。希望你和那个胃里发紧的周一早晨我,都不再赌博。

—— diguike,2026 年于上海


本章来自《AI Agent 评测工程实战》开源版 · 作者「递归客」
在线阅读完整书系:inferloop.dev · 反馈与勘误:GitHub Issues

本书资源

继续阅读 · 同作者其他书

Last updated on