如何评测生成,改写等开放性任务? 指导思想,开放性任务的写作能力这类任务本身就很主观,我们不太方便用Rouge或者BLEU这样的评价指标,因为它本身就不能体现模型的核心能力,而且与人类基准就是不对齐的(偏离实际需求)。 从更贴近实际需求的角度来说,Elo的方式还是最合理的; 或者如果你的模型的核心业务就是生成/改写/总结,那你本身就应该有一套业务逻辑的评价指标来评测你的模型——以你的业务需求为导向。