-
Notifications
You must be signed in to change notification settings - Fork 110
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
name_py_hz_dur.txt中的duration是怎么生成的,原数据集的标注文件中没有,拿其他数据集来训练试试 #14
Comments
好的,谢谢 |
你好 你这样建模的粒度是不是有点大 泛化能力也欠缺 |
不是很明白你的问题啊,可否说细一点 |
就是text2id那块 你直接用的vocab来映射id 这样维度是不是有点大?假如某个音节训练数据中没得 是不是泛化就有点问题?输入单元粒度太大了 也可以交流一下 |
采用音素的方式可以降低词典的大小,但是降得也不多,能降到1/4? 我觉得400个音素和1600个拼音没有数量级上的差别。再进一步,音素可以降为字母对吧,降到几个未必就好。直接用拼音的好处是端到端。其实用汉字也可以,对于实验的这两个数据集,只要过拟合控制得好(dropout够大),4000个汉字和1600个拼音也没有本质的区别。在embedding阶段,那个出现得少的token自然会向发音类似但是出现次数很多的token靠近,在空间中他们并不『孤独』。以上是个人意见,纯交流探讨哈~ |
从最优化的角度来考虑,出现最多的汉字会主导网络权重,而出现少但是同音的汉字只有向这些『大佬』靠近才能使得网络最优,不然网络又得花精力去照顾这些偶尔出现的同音字,对吧? |
感谢分享!我目前也在尝试用自制数据集训练,使用MFA来进行duration预测,但预测效果和给定内容并不相同,且没看出来明显的关联或转化关系。请问得到mfa的预测结果之后该怎样进一步处理? 目标音频:SSB10720003.wav |
如以下第四列的内容:
SSB06230173|sil ta1 sil ai4 ni3 er2 zi5 sil|sil 他 爱 你 儿 子 sil|9 14 4 16 20 11 22 29
SSB06230436|sil chong2 qing4 shi2 mu4 men5 sil|sil 重 庆 实 木 门 sil|10 22 19 25 19 18 35
SSB06230186|sil gei3 bie2 ren2 liao2 sang1 yong4 le5 sil|sil 给 别 人 疗 伤 用 了 sil|9 7 16 20 13 18 21 8 36
The text was updated successfully, but these errors were encountered: