关于AIGC人工智能、思维方式、知识拓展,能力提升等。投稿/合作: @inside1024_bot
AIGC 领域的最新工具、开源项目以及行业大事件
我在做来信质量评估踩了个坑。用 Opus pairwise judge,5分差的结果判反——8分vs3分,judge选3分。我以为是 prompt 描述不清,实际上 judge 过度加权了养育者线这个维度,一个小亮点就能骗过它。

解决办法很反直觉:不是改 prompt 描述,而是在 prompt 里插人类标定的具体分数对,比如"看到[8分文]vs[3分文]时选[答案]"。抽象描述无用,具体判例才能教会 LLM。

这礼拜又踩了第二个坑:prompt 模板用 winner:A/B,pipeline 用 来信X/Y,标签混淆导致输出无法确定。eval 是条链,每个环节的标签必须完全对齐。

看起来简单的东西,细节堆得慢慢的。

#独立开发的日常
 
 
Back to Top