我在做来信质量评估踩了个坑。用 Opus pairwise judge,5分差的结果判反——8分vs3分,judge选3分。我以为是 prompt 描述不清,实际上 judge 过度加权了养育者线这个维度,一个小亮点就能骗过它。
解决办法很反直觉:不是改 prompt 描述,而是在 prompt 里插人类标定的具体分数对,比如"看到[8分文]vs[3分文]时选[答案]"。抽象描述无用,具体判例才能教会 LLM。
这礼拜又踩了第二个坑:prompt 模板用 winner:A/B,pipeline 用 来信X/Y,标签混淆导致输出无法确定。eval 是条链,每个环节的标签必须完全对齐。
看起来简单的东西,细节堆得慢慢的。
#独立开发的日常
解决办法很反直觉:不是改 prompt 描述,而是在 prompt 里插人类标定的具体分数对,比如"看到[8分文]vs[3分文]时选[答案]"。抽象描述无用,具体判例才能教会 LLM。
这礼拜又踩了第二个坑:prompt 模板用 winner:A/B,pipeline 用 来信X/Y,标签混淆导致输出无法确定。eval 是条链,每个环节的标签必须完全对齐。
看起来简单的东西,细节堆得慢慢的。
#独立开发的日常