llm-action/llm-interview/llm-eval.md at main · liguodongiot/llm-action · GitHub

如何评测生成，改写等开放性任务?

指导思想，开放性任务的写作能力这类任务本身就很主观，我们不太方便用Rouge或者BLEU这样的评价指标，因为它本身就不能体现模型的核心能力，而且与人类基准就是不对齐的（偏离实际需求）。

从更贴近实际需求的角度来说，Elo的方式还是最合理的；

或者如果你的模型的核心业务就是生成/改写/总结，那你本身就应该有一套业务逻辑的评价指标来评测你的模型——以你的业务需求为导向。