pretrain_yuan_13B中的参数 #11

ztysdu · 2022-02-26T14:06:51Z

NNODES=?
GPUS_PER_NODE=1
MASTER_PORT=?
NODE_RANK=?
MASTER_ADDR=?
DISTRIBUTED_ARGS="--nproc_per_node $GPUS_PER_NODE --nnodes $NNODES --node_rank $NODE_RANK --master_addr $MASTER_ADDR --master_port $MASTER_PORT"
您好,我们想在矩池云上租用多GPU进行训练,请问MASRER_PORT,MASTER_ADDR,NNODES,NODE_RANK等参数应该怎么设置比较好啊,有参考资料吗?蟹蟹!

zhaoxudong01-ieisystem · 2022-02-28T00:16:04Z

NNODES=? GPUS_PER_NODE=1 MASTER_PORT=? NODE_RANK=? MASTER_ADDR=? DISTRIBUTED_ARGS="--nproc_per_node $GPUS_PER_NODE --nnodes $NNODES --node_rank $NODE_RANK --master_addr $MASTER_ADDR --master_port $MASTER_PORT" 您好,我们想在矩池云上租用多GPU进行训练,请问MASRER_PORT,MASTER_ADDR,NNODES,NODE_RANK等参数应该怎么设置比较好啊,有参考资料吗?蟹蟹!

https://pytorch.org/docs/stable/distributed.html
请阅读pytorch相关文档和Yuan 1.0的论文第二节部分内容，参数设置和具体硬件环境相关

Shawn-IEITSystems · 2022-03-08T10:19:14Z

@joe483 请问我们是否回答了您的问题？

Shawn-IEITSystems · 2022-03-10T11:24:02Z

已经完成了训练，关闭该issue。

Shawn-IEITSystems closed this as completed Mar 10, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

pretrain_yuan_13B中的参数 #11

pretrain_yuan_13B中的参数 #11

ztysdu commented Feb 26, 2022

zhaoxudong01-ieisystem commented Feb 28, 2022

Shawn-IEITSystems commented Mar 8, 2022

Shawn-IEITSystems commented Mar 10, 2022

pretrain_yuan_13B中的参数 #11

pretrain_yuan_13B中的参数 #11

Comments

ztysdu commented Feb 26, 2022

zhaoxudong01-ieisystem commented Feb 28, 2022

Shawn-IEITSystems commented Mar 8, 2022

Shawn-IEITSystems commented Mar 10, 2022