Agent Skill 评测实战：别再写完就算，先把对照实验跑起来

Mar 10, 2026 — Skills, Agents, Tool

如果只看标题，这像是一篇教你“怎么写 Skill”的文章。真正读完会发现，它更像一篇给 Skill 建软件工程观的文章。作者先讲 Skill 是怎么来的，再讲 Description 和 Body 怎么写，最后把重点落在评测和迭代上。对我来说，最值得留下的恰恰是最后这一段。

因为 Skill 一旦开始进真实工作流，它就不再只是一个 Markdown 文件，而是概率系统上的一层执行接口。

Skill 先解决的是“连接之后怎么做”的问题

原文前半段先把 Skill 放回到 Agent 能力扩展的上下文里。MCP 解决的是连接问题，让 Agent 能摸到工具和数据；AGENTS.md 是社区用自然语言补项目上下文的尝试；Skill 则把这件事标准化成一个文件夹结构，把指令、脚本、参考资料和资源组织到一起。

这一段很重要，因为它解释了 Skill 的定位。Skill 不是再造一个模型能力，而是把你团队的规范、流程、经验和工作手册外置出来，让 Agent 不必每次都从零学。

作者还专门讲了渐进式披露。description 常驻系统提示词，负责告诉 Agent 这个 Skill 什么时候该用；SKILL.md 在匹配后再加载；references/ 和 scripts/ 只在真正需要时进一步读取。这套机制既解决 token 问题，也决定了 Skill 的设计要分层。

Description 和 Body，本来就该分开设计

这篇文章有一个很强的工程味道，就是它不把 Skill 当成一坨说明文，而是明确拆成两部分来看。

Description 解决的是“什么时候触发”。写得太模糊会过度触发，写得太窄又会漏触发。原文把它总结成三件事：能做什么、核心能力是什么、用户在什么场景下应该触发它。这个视角很实用，因为很多 Skill 之所以效果差，不是 Body 写坏了，而是根本没有在该出现的时候出现。

Body 解决的是“触发之后怎么执行”。作者给了两种常见形态：知识文档型和工作流型。前者适合规则、标准、审查清单这类任务，后者适合需要分步骤推进、要调用脚本或工具的场景。看到这里其实已经能明白一件事：Skill 写作不是文学创作，它更像在设计接口说明和执行约束。

真正把 Skill 拉开差距的，是评测闭环

我认为原文最有价值的部分，是第四节“基于评测迭代”。作者没有把评测当附属建议，而是直接把它视为 Skill 开发不可省略的一环。这个判断完全正确。

原因很简单。Skill 面向的是概率系统，你没法凭直觉判断一段 Description 或 Body 到底是更好了，还是只是更长了。没有评测，团队最终只能靠几条主观反馈和零散体感做决策，这种方式迟早失真。

原文给出的几条原则都很实用：

Description 和 Body 要分层评测
评测必须有对照组
评测里必须保留人类判断

这里的对照组尤其关键。新建 Skill 时，对照组可以是“无 Skill 裸跑”；改进已有 Skill 时，对照组可以是旧版本。如果没有比较基线，你永远说不清这次修改到底是优化还是噪声。

评测集不是为了证明自己对，而是为了暴露边界

原文后面把 Description 评测和 Body 评测拆开了，我觉得这个拆法比很多泛泛而谈的“多测几轮”有用得多。

对 Description 来说，重点不是输出质量，而是触发精度。评测集要同时包含应触发的 query 和不应触发的 query，而且反例不能太傻。真正有价值的，是那些共享关键词、但语境不该触发的边界 case。

对 Body 来说，重点则回到结果质量和执行质量两层。结果有没有达标，执行过程中是不是绕了很多无效步骤，token 和时延有没有失控，这些都该一起看。只看最后结果，很容易把“一次侥幸成功”误判成稳定表现。

原文甚至把后续迭代路径也讲得很清楚：失败之后不要立刻往 Skill 里继续塞 MUST 和 NEVER，而是先看问题到底属于哪一层。是描述不准、指令冗余、任务拆分不对，还是有些确定性动作该沉到脚本里。这个判断力，才是 Skill 工程化真正难的地方。

如果把它落到团队里，流程其实不复杂

这篇文章给我的一个直接启发是，Skill 评测不一定要从很重的体系开始。一个最小闭环就已经够用了：

给核心 Skill 准备一组稳定的小型评测集
每次修改都同时跑实验组和对照组
分开记录触发效果、输出质量和执行成本
根据失败样本决定是删指令、改拆分，还是沉脚本
用完整评测集重跑，不靠印象拍板

原文后面还举了官方 Skill-Creator 演进和代码审查 Skill 迭代的例子，意思其实很明确：Skill 的质量不是一次写出来的，而是靠评测驱动不断逼近。

这篇文章真正想建立的是一个习惯

我读完后的结论很简单：Skill 写作当然重要，但真正决定它能不能进入生产环境的，不是“会不会写格式正确的 SKILL.md”，而是“有没有把它当成一个需要持续回归验证的系统部件”。

这也是为什么我同意作者最后的判断。Skill 的价值，不在于让 Agent 看起来更聪明，而在于把那些本来每次都要重新交代的经验和流程，变成可触发、可执行、可评测、可迭代的资产。没有评测，这些资产迟早会老化；有了评测，它才有资格进入团队的长期能力栈。