报错 torch.distributed.elastic.multiprocessing.errors.ChildFailedError: #32

qingkongby · 2025-01-11T08:53:56Z

按照requirement进行环境安装，使用gkd启动脚本，遇到上面问题，请问之前有遇到过吗，如何解决的？

mst272 · 2025-01-13T02:22:56Z

是否是gpu数量没设置对、或者可能是cuda的版本和torch的版本没有匹配上?

qingkongby · 2025-01-13T09:53:20Z

gpu数量有在zero3配置文件中“num_processes”字段做了修改对齐；当前cuda、torch版本，我有基于llama-factory走sft单机多卡训练，是没问题的。 -- 还有其它因素吗

mst272 · 2025-01-13T10:09:17Z

1、调小bacth_size及model大小，试验一下是否是OOM问题
2、排查环境问题，可以分别安装下面尝试
（1）https://github.com/mst272/LLM-Dojo/blob/main/requirements.txt
（2）https://github.com/mst272/LLM-Dojo/blob/main/rlhf/requirements.txt
（3）torch== 2.2.2 deepspeed== 0.14.2

Provide feedback