Skip to content
Calvin's Blog

Skill-creator 更新解读:用 Evals 与基准测试把 Skills 做成可验证资产

Mar 4, 2026 — Claude, Skills, Tutorial

很多团队已经在用 SKILL.md 沉淀流程,但一个长期问题始终存在:你知道它“能跑”,却很难证明它“稳定可用”。

Anthropic 这次对 skill-creator 的更新,重点不是再加一个写作助手,而是把 Skills 从“经验性提示模板”推进到“可测试的软件工件”:

  1. 能写 Evals,验证技能在给定输入下是否满足预期。
  2. 能跑 Benchmark,持续追踪通过率、耗时和 token 消耗。
  3. 能做触发描述调优,降低误触发与漏触发。
  4. 能用多代理并行评测,减少上下文串扰,提高评测吞吐。

这四件事合在一起,改变的是技能治理方式。

为什么这次更新重要

过去的技能迭代通常靠人工体感:

  1. 改了技能后“看上去更好”。
  2. 模型升级后“感觉有点不稳定”。
  3. 触发描述改短或改长后“偶尔失灵”。

问题在于,这些判断都很难复现和比较。没有可重复的评测集,就无法明确回答三个工程问题:

  1. 这次改动到底提升了什么。
  2. 模型升级是否引入了回归。
  3. 这个技能是否已经被底模能力覆盖。

skill-creator 新能力的价值,就是把这三件事从“主观判断”转为“可量化决策”。

两类 Skills,要用不同评测目标

原文把 Skills 分成两类,这个分类很实用。

1) Capability uplift(能力增强型)

这类技能用于补足底模短板,或提升某类任务稳定性。随着模型进步,它可能逐步失去必要性。

对这类技能,评测重点是:

  1. 技能加载前后,结果质量是否仍有显著差距。
  2. 底模单独运行是否已经通过核心评测项。
  3. 若差距收敛,是否可以降级为可选技能,减少维护成本。

2) Encoded preference(流程偏好编码型)

这类技能不一定在“能力上”比底模强,但它把团队流程显式编码,比如 NDA 审核步骤、周报生成顺序、MCP 数据来源约束等。

对这类技能,评测重点是流程保真度:

  1. 是否按团队定义的步骤执行。
  2. 是否引用了规定数据源。
  3. 输出结构是否符合内部标准。

换句话说,前者更像“能力差异测试”,后者更像“流程一致性测试”。

Evals 与 Benchmark:把技能迭代接入工程闭环

skill-creator 现在支持写 Evals,并在基准模式下持续追踪指标。这件事可以直接映射到常见研发流程。

推荐落地方式:

  1. 为每个核心技能维护最小评测集(覆盖正常输入、边界输入、失败输入)。
  2. 每次技能修改后运行评测,对比通过率与 token 开销。
  3. 每次模型升级后跑同一套评测,先看回归再决定是否上线。
  4. 对能力增强型技能定期执行“无技能基线测试”,评估是否仍需维护。

一个实用准则是:

多代理评测与比较代理:解决“测得慢、比不准”

在评测层面,两个常见噪声源是:

  1. 顺序执行太慢,反馈周期长。
  2. 上下文累计导致测试互相污染。

更新后的多代理并行执行给出了解法:每个评测在独立上下文运行,且单独记录 token 与耗时指标。这样做的收益是评测更快,也更干净。

另外,比较代理(comparator agents)提供了实用的 A/B 机制:

  1. 比较技能 A vs 技能 B。
  2. 比较有技能 vs 无技能。
  3. 评判时不暴露版本身份,减少先验偏置。

这对“描述写得更花哨但未提升效果”的改动尤其有用。

触发质量往往比输出质量更先出问题

很多团队把重点放在输出润色,但在生产环境里,技能失败更常见的根因是“没在正确时机触发”。

原文强调了一个现实问题:技能数量上来后,描述文本的精度决定触发稳定性。

  1. 描述过宽:误触发增加。
  2. 描述过窄:该触发时不触发。

skill-creator 的描述调优能力,本质是在做触发面的精确率/召回率平衡。对多技能共存场景,这一步通常比继续微调提示词更有收益。

工程实践建议:把 Skills 当成“带版本的测试对象”

基于这次发布内容,推荐把技能治理升级到下面这个最小体系:

  1. SKILL.md 负责定义行为与约束。
  2. evals 负责定义验收标准与回归门槛。
  3. benchmark 负责记录不同版本的成本与质量轨迹。
  4. trigger description 负责控制技能路由准确率。

当这四层同时存在时,技能迭代就从“经验调参”变成“可审计演进”。

延展判断:Skills 会从“怎么做”走向“要什么”

原文最后给出一个重要趋势判断:随着模型能力增强,Skill 可能逐步从详细的“实现步骤说明”演进为高层的“结果规格说明”。

这并不意味着 Skills 会消失,而是职责重心变化:

  1. 短期内,Skills 仍是团队流程与约束的主要载体。
  2. 中期看,Evals 可能成为更核心的资产,因为它定义了“什么算对”。
  3. 长期看,技能文本可能更像规范文件,而非执行脚本。

对工程团队而言,最稳妥的策略不是猜测未来形态,而是现在就建立评测资产。无论底模怎么变化,可复用的 Evals 都会持续增值。

结语

这次 skill-creator 更新的关键价值,可以归纳为一句话:

把 Agent Skills 从“可写”推进到“可测、可比、可治理”。

如果你正在团队内推广 Skills,建议优先补齐评测与触发质量这两层;它们比继续堆叠提示技巧更能决定长期稳定性。