预训练 Running tokenizer on dataset 执行了两遍 #4221

CanvaChen · 2024-06-11T15:56:41Z

Running tokenizer on dataset (num_proc=48): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1621781/1621781 [07:42<00:00, 3507.62 examples/s]

上面步骤执行完成后，又会执行：

Running tokenizer on dataset (num_proc=48): 37%|█████████████████████████████████████████████▋ | 607148/1621781 [00:14<00:06, 145837.70 examples/s]

两次数据集数量相同，耗时接近，感觉重复执行了。

hiyouga · 2024-06-12T18:48:34Z

fixed

adumans · 2024-08-22T02:05:17Z

fixed

@hiyouga 请问原因2次的原因是什么呢？我看改动里面主要是training_args.local_process_index这个吗？

github-actions bot added the pending This problem is yet to be addressed label Jun 11, 2024

hiyouga added solved This problem has been already solved and removed pending This problem is yet to be addressed labels Jun 12, 2024

hiyouga closed this as completed Jun 12, 2024

hiyouga reopened this Jun 12, 2024

hiyouga closed this as completed in 6baafd4 Jun 12, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

预训练 Running tokenizer on dataset 执行了两遍 #4221

预训练 Running tokenizer on dataset 执行了两遍 #4221

CanvaChen commented Jun 11, 2024

hiyouga commented Jun 12, 2024

adumans commented Aug 22, 2024

预训练 Running tokenizer on dataset 执行了两遍 #4221

预训练 Running tokenizer on dataset 执行了两遍 #4221

Comments

CanvaChen commented Jun 11, 2024

hiyouga commented Jun 12, 2024

adumans commented Aug 22, 2024