Claude Skill Creator 更新了一个挺关键的功能,我个人感觉对做 Agent / Skills 的人来说其实意义不小。
以前写 Claude 的 Skill,有个特别玄学的问:触发率。
你明明写了一个技能,比如处理 PDF、抓网页、写总结,结果该触发的时候它不触发,不该触发的时候它突然冒出来。
很多时候只能靠手动测试:改一句描述 → 试一次 → 再改 → 再试。说实,这个过程挺折磨人的。
这次 Anthropic 给 Skill Creator 加了一个很实用的能力:内置自动测试(Evals)。
现在你可以给技能写一组测试提示词,比如“用户可能会怎么问”,再定义“什么算正确结果”。
然后系统会自动跑一轮测试,直接给你报告:
触发率多少、哪些用例失败、token 花了多少、耗时多少,一目了然。
而且它不是一个一个排队跑,而是多个 Agent 并行测试。
每个测试场景都在独立 Agent 里执行,所以不会互相污染上下文。你写 20 个测试场景,它就同时跑 20 个,很快就能看到结果。
我觉得最有意思的是 A/B 对比测试。
你改了一版技能描述,不确定有没有更好,可以直接让系统做盲测,让一个“比较器 Agent”判断两个版本哪个更好。以前这种事情基本靠直觉,现在终于可以用数据说了。
还有一个很实用的小功能:触发率优化建议。
系统会分析你的技能描述和测试提示词,然后告诉你哪里可能导致误触发或漏触发。官方测试里,6 个公开技能有 5 个触发率都提升了。
对我来说,这个更新最大的意义是:
Skill 开发终于开始有点“工程化”的味道了。
以前调技能基本是玄学,现在至少可以:
写测试 → 跑评估 → 看数据 → 调描述 → 再跑一轮。
当然它也有局限,比如它能测 有没有触发、格式对不对,但很难判断 内容质量好不好。
像写作类技能,文章写得好不好,目前还是得人来看。
但整体来说,这一步已经很关键了。
Agent 的世界其实正在慢慢从 Prompt 调参时代,走向 测试驱动开发(TDD)时代。
以后写 Skill,可能跟写代码越来越像:先写测试,再写能力。
@aigc1024

OpenClaw小龙虾🦞专属频道
@openclaw1024
 
 
Back to Top