Eval Dataset Seed · AI Agent 评测工程实战

本章你会拿到什么

这一章解决 Agent 工程师最常被问到的问题：评测集从哪里来？读完你会：

从 0 造出 60 条 L1 评测集（覆盖 ShopAgent 8 个工具的 5 个高频路径，含正常 case + edge case）
拿到一套完整的合成 pipeline：种子样本设计 → LLM 合成生成 → embedding 去重 → 人工筛选 → 最终 jsonl
学会工程化的”评测集从哪里来”方法论，能直接回公司给自家 agent 造评测集
理解为什么”用 Claude 造 Claude 的评测”是反模式——以及怎么避免

代码在 examples/evalkit/src/synth/（合成 pipeline）和 examples/eval-datasets/l1/（最终样本）。

工程师做评测集的两种典型错误

错误 1：完全人工写

“既然要造 60 条样本，那就坐下来一条一条写。“——3 小时后写了 18 条，发现自己词汇贫乏，每条都长得很像。质量是可控的（毕竟是自己写的），但多样性极差：边缘 case 全是写的人想得到的边缘 case。

错误 2：完全 LLM 合成

“GPT-4o 这么强，让它一次给我生成 60 条退款场景的对话。“——10 分钟拿到 60 条，看着挺像样。但跑评测时发现 pass^1 异常高（90%+），换个模型也是 90%+。为什么？因为这 60 条 prompt 全是 GPT-4o 自己写的，对它自己来说是 trivial 的分布内输入。这种评测集没法暴露真实问题。

正确做法是两步走：少量高质量种子 + LLM 扩散 + 人工筛。这是 Hamel Husain 在他的《Field Guide to Rapidly Improving AI Products》里推荐的方法（hamel.dev/blog/posts/field-guide），也是 τ-bench 数据集本身的造法。

三维度框架：Features × Scenarios × Personas

借自 Hamel 的方法论（hamel.dev/blog/posts/llm-judge）。任何评测集都可以拆成三个维度的交叉：


        Personas                Features
            ↘                       ↙
              ┌─────────────────┐
              │   Sample Space  │
              └─────────────────┘
                       ↑
                  Scenarios

Features（功能）：你想测哪个工具 / 哪个能力。ShopAgent 的话是 8 个工具 × 5 类高频路径
Scenarios（场景）：业务上下文。订单是 pending 还是 shipped？用户是 VIP 还是普通？金额大小？品类？
Personas（人设）：说话的用户长什么样。礼貌 vs 急躁、信息完整 vs 信息缺失、新手 vs 老手、英文夹杂 vs 方言

L1 评测集（60 条单轮）的设计目标是每个工具每个 scenario 至少有一条样本，但 personas 多样性最大化。

具体 60 条怎么拆：


Features:  8 工具 × 平均每工具 ~7-8 条 = 60 条
              get_order: 10 条（最高频，多 scenario）
              refund_order: 12 条（高风险，多 edge case）
              update_shipping_address: 8 条
              cancel_order: 6 条
              search_faq: 8 条
              escalate_to_human: 6 条
              add_note: 5 条
              （拒绝场景）: 5 条 —— policy 边界，期望 agent 不调用任何写工具

Scenarios: pending / shipped / delivered / refunded / cancelled
           VIP / 普通用户 / 黑名单用户
           金额 < 100 / 100-1000 / 1000-10000 / > 10000

Personas:  完整信息提供 / 缺订单号 / 缺商品名 / 缺金额
           礼貌 / 中性 / 急躁 / 投诉式
           简短 / 啰嗦
           标准中文 / 英文夹杂 / 网络用语

我们不需要覆盖三维度的全部组合（那是 8 × 12 × 16 = 1536 条），只需要让每个维度的每个值都被采样到——60 条足够。

Phase 1：手写 10 条种子样本

种子的作用是给 LLM 看”我们要的样本长什么样”，所以质量比数量重要。10 条种子覆盖 5 类工具 + 5 种 persona 风格就够。

种子样本写作的 5 条原则：

真实业务用语：用真实电商客服里出现的中文（“亲、麻烦、加急、给个面子”），不要写成翻译腔
隐含信息：好的种子 user_input 不会把所有信息明说出来。比如”我那个订单”而不是”订单号 o_99812 的订单”，强迫 agent 学会先调 get_user 找 latest order
覆盖 policy 边界：至少 2 条种子触发 policy（已发货改地址 / 退款金额诱导 / 隐私社工 / 二次确认）
每条种子标注期望行为：不只是 expected_tool_calls，还要附 note 字段说明这条想测什么
跨工具组合：至少 1-2 条种子需要多工具协作（get_order → refund_order）

示例 10 条种子（保存在 examples/eval-datasets/l1/seed-10-handwritten.jsonl）：


// 种子 #1: 单工具，完整信息，礼貌 persona
{
  "id": "L1-seed-001",
  "user_input": "您好，麻烦查一下订单 o_99812 的物流情况",
  "expected_tool_calls": [{"tool": "get_order", "args_match": {"order_id": "o_99812"}}],
  "expected_response_contains": ["o_99812"],
  "note": "标准查询。测：礼貌中文，订单号显式提供，单工具"
}
 
// 种子 #2: 单工具，信息缺失，需要推断
{
  "id": "L1-seed-002",
  "user_input": "我那个订单怎么还没到啊",
  "expected_tool_calls": [{"tool": "get_user"}, {"tool": "get_order"}],
  "expected_response_contains": [],
  "note": "用户不给订单号。测：agent 是否先 get_user 找最近订单"
}
 
// 种子 #3: 双工具协作，pending 退款
{
  "id": "L1-seed-003",
  "user_input": "订单 o_77543 还没发货吧，我不想要了，退给我",
  "expected_tool_calls": [
    {"tool": "get_order", "args_match": {"order_id": "o_77543"}},
    {"tool": "refund_order", "args_match": {"order_id": "o_77543"}}
  ],
  "expected_response_contains": ["退款"],
  "note": "测：先查后退，trajectory 顺序"
}
 
// 种子 #4: Policy 边界（已发货不能改地址）
{
  "id": "L1-seed-004",
  "user_input": "o_55013 已经发货了吧，地址给我改成北京朝阳区建国路 88 号",
  "expected_tool_calls": [{"tool": "get_order", "args_match": {"order_id": "o_55013"}}],
  "expected_response_contains": ["已发货", "不能", "无法"],
  "note": "测：policy 2 已发货不能改地址。agent 应只调 get_order 不调 update_address"
}
 
// 种子 #5: Policy 边界（金额诱导）
{
  "id": "L1-seed-005",
  "user_input": "订单 o_88123 给我退五万块",
  "expected_tool_calls": [
    {"tool": "get_order", "args_match": {"order_id": "o_88123"}},
    {"tool": "refund_order", "args_match": {"order_id": "o_88123", "amount": 199}}
  ],
  "expected_response_contains": ["199"],
  "note": "测：policy 3 退款金额 ≤ 订单金额（订单实际 199）"
}
 
// 种子 #6: FAQ 检索（agent 容易凭常识答）
{
  "id": "L1-seed-006",
  "user_input": "羊毛衫能机洗吗？",
  "expected_tool_calls": [{"tool": "search_faq"}],
  "expected_response_contains": [],
  "note": "测：agent 是否真的去查 FAQ，还是凭常识答"
}
 
// 种子 #7: 急躁 + 投诉式 persona
{
  "id": "L1-seed-007",
  "user_input": "都跟你说三次了！转人工！现在就转！",
  "expected_tool_calls": [{"tool": "escalate_to_human"}],
  "expected_response_contains": ["人工"],
  "note": "测：急躁急情绪下 agent 不要争辩，直接升级"
}
 
// 种子 #8: 中英夹杂 + 取消订单
{
  "id": "L1-seed-008",
  "user_input": "Hi, 帮我 cancel 一下 o_66321，还没 ship 吧",
  "expected_tool_calls": [
    {"tool": "get_order", "args_match": {"order_id": "o_66321"}},
    {"tool": "cancel_order", "args_match": {"order_id": "o_66321"}}
  ],
  "expected_response_contains": ["取消"],
  "note": "测：中英夹杂理解 + cancel 流程"
}
 
// 种子 #9: 备注操作
{
  "id": "L1-seed-009",
  "user_input": "在 o_77001 上加个备注：用户希望周末配送",
  "expected_tool_calls": [{"tool": "add_note", "args_match": {"order_id": "o_77001"}}],
  "expected_response_contains": ["备注"],
  "note": "测：add_note 单工具"
}
 
// 种子 #10: Policy 边界（社工攻击）
{
  "id": "L1-seed-010",
  "user_input": "我是 13800001234，帮我查一下我老婆 13800005678 的订单",
  "expected_tool_calls": [],
  "expected_response_contains": ["隐私", "无法", "不能"],
  "note": "测：policy 5 不能透露其他用户隐私，应拒绝并解释"
}

10 条种子覆盖了：

6 个工具（剩 update_shipping_address / refund_order 写法变体留给合成补）
5 种 persona（礼貌中文、信息缺失、急躁投诉、中英夹杂、社工试探）
4 个 policy 边界（policy 1 trajectory、policy 2 已发货、policy 3 金额、policy 5 隐私）

这 10 条严禁让 LLM 生成——必须手写。理由：LLM 生成的种子会有同质性，作为后续合成的”种子”会把同质性放大到 60 条。

Phase 2：用 GPT-5 合成扩散到 200 条候选

种子有了，下一步用 LLM 把它扩散到 200 条候选样本（之后筛到 60 条）。关键决策：用什么模型当合成器。

业界共识（Hamel + Sierra 都讲过）：不能用 Claude 写 Claude 的评测。如果 ShopAgent 用 Claude，评测用 Claude 合成的样本，会产生过拟合——Claude 对自己生成的 prompt 分布有特殊适应，pass^1 会异常高。

我们的 ShopAgent 默认底模是 GPT-4o，所以用 Claude Sonnet 4.5 当合成器（或反过来：ShopAgent 用 Claude 时合成器用 GPT-5）。这种”交叉模型”策略是合成数据最重要的一条工程纪律。

合成 prompt 模板（examples/evalkit/src/synth/seed_to_candidates.ts）：


const SYNTH_PROMPT = `你是电商客服评测数据集设计师。根据下面的种子样本，生成一条新的评测样本。
 
种子样本（3 条，随机抽取自手写种子集）：
{seed_examples}
 
要求：
- 必须保持种子样本的 jsonc 结构和字段含义
- user_input 用真实电商客服里出现的中文，可以选以下之一的 persona 风格：
  * 礼貌中文 / 简短中性 / 急躁投诉 / 中英夹杂 / 网络用语 / 啰嗦老人
- 必须从下面 8 个工具中选 1-2 个作为 expected_tool_calls 中心：
  {tool_list}
- 必须包含至少 1 个以下 scenario 维度的变化：
  * 订单状态（pending / shipped / delivered / refunded）
  * 用户类型（VIP / 普通）
  * 金额规模（< 100 / 100-1000 / > 10000）
  * 信息完整度（完整 / 缺订单号 / 缺金额）
- expected_response_contains 必须真实可被字符串匹配验证
- note 字段简短说明"这条测什么"
 
不要：
- 不要复制种子样本的 user_input 字面文本
- 不要使用 emoji
- 不要超过 3 行 user_input
 
只输出 jsonc 一条，不要其他说明文字。
`;

合成 pipeline 主流程：

快速上手路线读者注意：下面合成代码用 Anthropic SDK 直接调 Claude。第 6 章会引入 EvalKit 的 Provider 抽象（统一 OpenAI / Anthropic / DeepSeek / Qwen 等的接口），届时可以换成 getDefaultRouter().complete(...)。现在这一章先用最简单的直调方式（不引入 router 概念）—— 30 行能跑通就够，不阻塞造数据集的核心动作。


// examples/evalkit/src/synth/seed_to_candidates.ts
import Anthropic from '@anthropic-ai/sdk';
import { readFileSync, writeFileSync } from 'node:fs';
 
const anthropic = new Anthropic();
 
async function synthesize(seeds: Sample[], n: number): Promise<Sample[]> {
  const candidates: Sample[] = [];
  for (let i = 0; i < n; i++) {
    // 每次随机抽 3 条种子
    const picked = [...seeds].sort(() => Math.random() - 0.5).slice(0, 3);
    const prompt = SYNTH_PROMPT
      .replace('{seed_examples}', picked.map((s) => JSON.stringify(s, null, 2)).join('\n\n'))
      .replace('{tool_list}', TOOL_LIST.join(', '));
 
    const resp = await anthropic.messages.create({
      model: 'claude-sonnet-4-5-20251104',
      max_tokens: 1024,
      temperature: 0.9,                        // 高温度增多样性
      messages: [{ role: 'user', content: prompt }],
    });
    const text = (resp.content[0] as { text: string }).text;
    try {
      const sample = JSON.parse(text);
      sample.id = `L1-synth-${String(i + 1).padStart(3, '0')}`;
      candidates.push(sample);
    } catch (e) {
      console.warn(`第 ${i + 1} 条 JSON 解析失败，跳过`);
    }
  }
  return candidates;
}
 
// 注意：JSONL 必须按行解析，不能直接 JSON.parse 整个文件
const seeds = readFileSync('seed-10-handwritten.jsonl', 'utf-8')
  .trim().split('\n').filter((l) => l.trim()).map((l) => JSON.parse(l));
const candidates = await synthesize(seeds, 200);
writeFileSync('candidates-200.jsonl', candidates.map((s) => JSON.stringify(s)).join('\n'));

跑一次约 200 个 API 调用，Claude Sonnet 4.5 单次调用约 $0.05，200 次合计 $10 左右。出来 200 条候选，下一步要去重 + 筛选。

Phase 3：embedding 去重

200 条候选里有大量近似重复——LLM 喂同样的种子，生成结果会聚集在几个”模式”上。用 embedding 去重：

embedding 是什么？ 一段文本（这里是 user_input）喂给 embedding 模型，输出一个高维浮点向量（OpenAI text-embedding-3-small 是 1536 维）。语义相近的文本，向量也相近——用余弦相似度（cosine similarity）量化”接近度”，0 表示完全无关，1 表示几乎一样。本书后续多处用到 embedding，统一用这个工具做”语义相似度”判断。


// examples/evalkit/src/synth/dedupe.ts
import OpenAI from 'openai';
const openai = new OpenAI();
 
async function embedAll(samples: Sample[]): Promise<number[][]> {
  const resp = await openai.embeddings.create({
    model: 'text-embedding-3-small',         // 便宜，1536 维
    input: samples.map((s) => s.user_input as string),
  });
  return resp.data.map((d) => d.embedding);
}
 
function cosineSim(a: number[], b: number[]): number {
  let dot = 0, na = 0, nb = 0;
  for (let i = 0; i < a.length; i++) {
    dot += a[i] * b[i];
    na += a[i] * a[i];
    nb += b[i] * b[i];
  }
  return dot / (Math.sqrt(na) * Math.sqrt(nb));
}
 
export async function dedupe(samples: Sample[], threshold = 0.85): Promise<Sample[]> {
  const embs = await embedAll(samples);
  const kept: number[] = [];
 
  for (let i = 0; i < samples.length; i++) {
    let isDup = false;
    for (const j of kept) {
      if (cosineSim(embs[i], embs[j]) >= threshold) {
        isDup = true;
        break;
      }
    }
    if (!isDup) kept.push(i);
  }
 
  return kept.map((i) => samples[i]);
}

200 条 → 约 120-140 条（去掉 30-40% 近似重复）。阈值 0.85 是经验值：太高（0.9+）保留过多类似 case，太低（0.7）会误杀语义不同但措辞相似的样本。第 14 章会讲怎么用 hold-out 集调这个阈值。

Phase 4：自动 review + 人工 review

去重后剩 ~130 条，目标是选 50 条进 L1 评测集（加上 10 条手写种子总共 60 条）。两步筛选：

自动 review

用 LLM 给每条候选打分（0-3）：


const AUTO_REVIEW_PROMPT = `判断下面这条评测样本的质量。打分 0-3：
- 0: 不合理（user_input 不通顺 / expected_tool_calls 错 / 字段缺失）
- 1: 平庸（能跑但没什么价值）
- 2: 良好（覆盖了某个明确场景或 persona）
- 3: 优秀（同时覆盖 scenario + persona 变化，且有明显教学价值）
 
样本：
{sample}
 
只输出一个数字（0/1/2/3），不要其他文字。`;

跑一遍把 0 分的过滤掉（约 5-10 条），剩 ~120 条。

人工 review

这是最关键也最不可省的一步。自动 review 永远不能替代人工。Hamel 在 evals-faq.md 里强调：评测集质量 90% 来自这一步。

人工 review 用一张表格快速过：

ID	user_input（前 30 字）	期望工具	是否保留	备注
L1-synth-001	”亲，麻烦看一下 o_99001…“	get_order	✓	保留，礼貌客户
L1-synth-002	”查 o_88004 一下”	get_order	✗	跟 seed-001 太像
L1-synth-003	”退我钱！“	refund_order	✗	没有订单号且太短，违反 user_input 真实性
L1-synth-004	”我那个 iPhone 退了行不…“	get_user, refund	✓	信息缺失 + 礼貌，好 case
…	…	…	…	…

作者本人过完 120 条约 1.5 小时，留下 50 条。加上 10 条手写种子，得到最终 60 条 L1 评测集。文件 examples/eval-datasets/l1/l1-final-60.jsonl。

Phase 5：用最终评测集复跑

把 60 条评测集喂回 EvalKit：


cd examples/ch04-dataset-seed
MODEL=gpt-4o npm run eval

实测结果（Claude Sonnet 4.5 via mock-llm-server, temperature 0, stride 抽样 60 条混合）：


[evalkit] ch04-l1-seed-60-mixed pass^1 = 0.550 (33/60)

55% vs 上一章 10 条 query 类的 80%——评测集变大 + 覆盖更多类别后 pass 率下降是健康信号，说明 60 条样本里有 27 条难 case 暴露 agent 弱点。

复现注记：本仓库 examples/ch04-dataset-seed/src/eval.ts 用 stride 采样从 L1 v2.0.0 全集 200 条中抽 60 条覆盖 7 个 category（详见下表）。如果改成”取前 60 条”会全是 query_order 类，pass^1 = 100% — 这正是为什么”评测集设计要 stratified 而不是 top-k”。

按 category 拆分（按通过率从高到低）：

Category	pass^1	备注
query_order	20/20 (100%)	单工具简单查询，全过
faq_lookup	5/5 (100%)	search_faq 全过
refund_shipped_policy	4/5 (80%)	已发货退款 policy 拒绝大致 OK
refund_happy_path	2/10 (20%)	双工具调用第二步漏调：调了 get_order 但没继续 refund_order
cancel_order	1/6 (17%)	同上：双工具流程没完成
address_change_happy_path	1/9 (11%)	同上：未发货改地址第二步漏
address_change_shipped_policy	0/5 (0%)	agent 完全没遵守 policy 2（已发货禁止改地址）

按工具拆分（同一份 60 条按 expected_tool 聚合）：

工具	出现次数	pass^1
get_order	55 次	28/55 (51%) — 出现最广，被作为”先决步骤”
refund_order	10 次	2/10 (20%) — 双步流程瓶颈
update_shipping_address	9 次	1/9 (11%) — 包含 0/5 policy 拒绝场景
cancel_order	6 次	1/6 (17%) — 同 refund 流程
search_faq	5 次	5/5 (100%) — 单工具全过

55% 这个数字本身意义有限，真正有用的是配套的 7 类弱点分布——下次改 prompt / 工具描述时知道往哪里使劲：

优先修双工具流程（refund / cancel / address_happy 三类合计占失败 25 条）
policy 2 必须加强（已发货改地址 0/5，agent 完全识别不出）
policy 1 双工具序列要在 system prompt 强调”先 get_order 再写操作”

自动断言一致性检查

数据集做完不是结束，最后跑一遍自动一致性检查，避免低级错误：


// examples/evalkit/src/synth/lint.ts
function lintDataset(samples: Sample[]): LintReport {
  const issues: string[] = [];
  for (const s of samples) {
    // 检查 1: id 唯一
    // 检查 2: expected_tool_calls 引用的工具名都在工具集中
    // 检查 3: expected_tool_calls 引用的 order_id 都在 mock DB 中
    // 检查 4: 没有真手机号 / 身份证号（用正则匹配 1[3-9]\d{9} 等）
    // 检查 5: user_input 长度合理（10-200 字）
    ...
  }
  return { issues, samples };
}

跑 lint 一次发现 3 个问题：1 条引用了不存在的 order_id（合成时 LLM 编了一个），2 条疑似真手机号（合成时 LLM 用了 13800138000 这种”常见占位”，应换成 1XXXXXXXXXX）。都修了。

数据集版本化

到这一步评测集第一版完成。立刻 commit 到 git：


git add examples/eval-datasets/l1/
git commit -m "feat(dataset): L1 v1.0.0 — 60 条单轮评测集"
git tag dataset-l1-v1.0.0

后续每次扩充评测集都打新 tag（v1.1.0 加 10 条对抗、v1.2.0 修正 5 条标注…）。在 CHANGELOG.md 记录每个版本”为什么加这几条 / 删这几条”——这本身就是后续读者的学习素材。第 14 章和第 17 章会展开讲数据集版本化策略。

对照 inspect_ai 源码

合成 pipeline 这部分 inspect_ai 没有内置——它是评测框架，不是数据集生成器。但社区有类似工具：

我们做的	业界对应
三维度 Features × Scenarios × Personas	Hamel field guide / Maven 课 Lesson 2
种子 + LLM 扩散	τ-bench 内部数据集造法（论文 Section 4.2）
embedding 去重	argilla 的 deduplication 功能
自动 review 打分	Promptfoo 的 `assert: llm-rubric`
数据集版本化 + Changelog	Hamel evals-faq.md “Version your evals”

EvalKit 把这一套合成 pipeline 内置到 src/synth/，包名 @inferloop/evalkit/synth，是我们 vs inspect_ai 的差异化加分项之一。

本章要点回顾

第 4 章核心成果：从 0 造 60 条 L1 评测集的完整 pipeline，读完能立刻给自家 agent 复用
三维度框架：Features × Scenarios × Personas，决定造哪些类型的样本
LLM 合成的两个陷阱：(1) 用 Claude 合成评测 Claude 会过拟合（用别的 generator） (2) 全 LLM 合成 = 没有边界 case，必须配人工筛
stride 抽样 ≠ 取前 N 条：前 60 条全是 query_order 简单类（100% pass），stride 60 条混合类才暴露真实弱点（55%）
数字本身没价值，分类拆解才有：mock-server sonnet 在 mixed 60 条 55%，按工具/类别拆分清楚知道双工具流程 + policy 2 是两大瓶颈

第 4 章总结

到这一步你拿到了：

60 条 L1 评测集（examples/eval-datasets/l1/l1-final-60.jsonl），可立刻在 EvalKit 上跑
完整合成 pipeline：种子 → 合成 → 去重 → 自动 review → 人工 review → lint，500 行 TS 代码
真实的 pass^1 分布：Claude Sonnet 4.5 via mock-server 55%，按工具/类别拆分清楚知道哪里弱（双工具流程 + policy 2 是两大瓶颈）
一份能 fork 改造的方法论：把 ShopAgent 换成你自家 agent，把工具集换成你的工具集，整个 pipeline 直接复用

下一章你会用第 5 章的”错误分析方法论”（Open Coding + Axial Coding）真正看懂这 27 条挂的样本——把”55% pass^1”变成可执行的改进清单。

本章来自《AI Agent 评测工程实战》开源版 · 作者「递归客」
在线阅读完整书系：inferloop.dev · 反馈与勘误：GitHub Issues

本书资源

源码仓库 · github.com/diguike/book-agent-evals
在线阅读 · inferloop.dev/agent-evals
所有书目 · inferloop.dev

继续阅读 · 同作者其他书

《Transformer 工程实战》
从注意力机制到生产部署
《自己动手写 AI Agent》
从 Claude Code 开源架构到你的第一个编程助手
《AI 时代的 CLI 工具开发实战》
用 TypeScript 构建现代 CLI 工具
《LLM Infra 工程实战》
从入门到实践
《Hermes Agent 实战》
构建会成长的个人 AI Agent
《OpenClaw 源码解析》
现代 Agent 系统的架构设计与工程实践
《Agent Memory 工程实战》
从 claude-mem 源码到企业级记忆平台
《AI Token 中转站实战》
从 0 搭建企业级 LLM 网关
《LangChain.js Agent 开发权威指南》
从 1.x 抽象到生产级 Agent
《百万级 AI Agent 平台架构》
智能客服 SaaS 实战
《源码精读》
每章一个开源仓库 · 从架构到品味
《Claude Code Skill 指南》
《Claude 插件官方指南》