我在做来信质量评估踩了个坑

我在做来信质量评估踩了个坑。用 Opus pairwise judge，5分差的结果判反——8分vs3分，judge选3分。我以为是 prompt 描述不清，实际上 judge 过度加权了养育者线这个维度，一个小亮点就能骗过它。

解决办法很反直觉：不是改 prompt 描述，而是在 prompt 里插人类标定的具体分数对，比如"看到[8分文]vs[3分文]时选[答案]"。抽象描述无用，具体判例才能教会 LLM。

这礼拜又踩了第二个坑：prompt 模板用 winner:A/B，pipeline 用来信X/Y，标签混淆导致输出无法确定。eval 是条链，每个环节的标签必须完全对齐。

看起来简单的东西，细节堆得慢慢的。

#独立开发的日常