Claude Skill Creator 更新了一个挺关键的功能，我个人感觉对做 Agent / Skills 的人来说其实意义不小

Claude Skill Creator 更新了一个挺关键的功能，我个人感觉对做 Agent / Skills 的人来说其实意义不小。
以前写 Claude 的 Skill，有个特别玄学的问：触发率。
你明明写了一个技能，比如处理 PDF、抓网页、写总结，结果该触发的时候它不触发，不该触发的时候它突然冒出来。
很多时候只能靠手动测试：改一句描述 → 试一次 → 再改 → 再试。说实，这个过程挺折磨人的。
这次 Anthropic 给 Skill Creator 加了一个很实用的能力：内置自动测试（Evals）。
现在你可以给技能写一组测试提示词，比如“用户可能会怎么问”，再定义“什么算正确结果”。
然后系统会自动跑一轮测试，直接给你报告：
触发率多少、哪些用例失败、token 花了多少、耗时多少，一目了然。
而且它不是一个一个排队跑，而是多个 Agent 并行测试。
每个测试场景都在独立 Agent 里执行，所以不会互相污染上下文。你写 20 个测试场景，它就同时跑 20 个，很快就能看到结果。
我觉得最有意思的是 A/B 对比测试。
你改了一版技能描述，不确定有没有更好，可以直接让系统做盲测，让一个“比较器 Agent”判断两个版本哪个更好。以前这种事情基本靠直觉，现在终于可以用数据说了。
还有一个很实用的小功能：触发率优化建议。
系统会分析你的技能描述和测试提示词，然后告诉你哪里可能导致误触发或漏触发。官方测试里，6 个公开技能有 5 个触发率都提升了。
对我来说，这个更新最大的意义是：
Skill 开发终于开始有点“工程化”的味道了。
以前调技能基本是玄学，现在至少可以：
写测试 → 跑评估 → 看数据 → 调描述 → 再跑一轮。
当然它也有局限，比如它能测有没有触发、格式对不对，但很难判断内容质量好不好。
像写作类技能，文章写得好不好，目前还是得人来看。
但整体来说，这一步已经很关键了。
Agent 的世界其实正在慢慢从 Prompt 调参时代，走向测试驱动开发（TDD）时代。
以后写 Skill，可能跟写代码越来越像：先写测试，再写能力。
@aigc1024

OpenClaw小龙虾🦞专属频道
@openclaw1024