Skip to content

Latest commit

 

History

History
16 lines (4 loc) · 582 Bytes

llm-eval.md

File metadata and controls

16 lines (4 loc) · 582 Bytes

如何评测生成,改写等开放性任务?

指导思想,开放性任务的写作能力这类任务本身就很主观,我们不太方便用Rouge或者BLEU这样的评价指标,因为它本身就不能体现模型的核心能力,而且与人类基准就是不对齐的(偏离实际需求)。

从更贴近实际需求的角度来说,Elo的方式还是最合理的;

或者如果你的模型的核心业务就是生成/改写/总结,那你本身就应该有一套业务逻辑的评价指标来评测你的模型——以你的业务需求为导向。