fix moe-ep accuracy issue for fp8 #2489

xiaobochen123 · 2024-12-16T12:12:39Z

Motivation

fix moe ep bug, when load fp8 model. Links to related issues link

Test model : neuralmagic/DeepSeek-Coder-V2-Instruct-FP8

Accuracy: 0.932
Invalid: 0.000
Latency: 243.824 s
Output throughput: 1027.530 token/s

fix moe-ep bug

1d71f21

xiaobochen123 requested review from merrymercy, Ying1123, zhyncs and ispobock as code owners December 16, 2024 12:12

zhyncs changed the title ~~fix moe-ep bug~~ fix moe-ep accuracy issue for fp8 Dec 16, 2024

zhyncs approved these changes Dec 16, 2024

View reviewed changes

zhyncs merged commit b532a5f into sgl-project:main Dec 16, 2024
15 checks passed