[Help]: 为何扩散模型生成的效果要远好於 sovits 的模型? #361
Replies: 3 comments
-
因为diffusion在高质量数据下的上限比sovits要高,推理起来听着更好也正常 |
Beta Was this translation helpful? Give feedback.
-
原来还有这个因素,下次使用 UVR 数据试试 diffusion 的效果。 |
Beta Was this translation helpful? Give feedback.
-
hi , can you share your diffusion.yaml ? model: |
Beta Was this translation helpful? Give feedback.
-
请勾选下方的确认框。
系统平台版本号
win 10
GPU 型号
3060 12g
Python版本
3.10.6
PyTorch版本
2.0.1+cu118
sovits分支
4.0(默认)
数据集来源(用于判断数据集质量)
自行录制,一半是歌声
出现问题的环节或执行的命令
训练 so-vits-svc 4.0 模型
问题描述
我是新手,使用 so-vits-svc 4.0 推理 webUI,为何 diffusion 模型生成的效果要远好於 sovits 的模型?
一般使用30至45分钟的资料,使用预设 config,没有修改批次大小, sovits 模型训练约20万步,推理出来的歌声总是沙哑,或突然出现电流声音.
但是 diffusion 模型只训练了3万步,推理出来的歌声已很不错,虽还不够完美,但比 sovits 模型要好很多。
混合 sovits 模型和 diffusion 模型後,感觉比只用 diffusion 要差一些,但比只用sovits 模型要好。
为什麽会有这情况,是否训练不够多?
日志
截图
so-vits-svc
、logs/44k
文件夹并粘贴到此处补充说明
No response
Beta Was this translation helpful? Give feedback.
All reactions