Skip to content
This repository has been archived by the owner on Sep 16, 2019. It is now read-only.

语料的使用问题 #27

Open
Lavender2017 opened this issue Oct 29, 2018 · 1 comment
Open

语料的使用问题 #27

Lavender2017 opened this issue Oct 29, 2018 · 1 comment

Comments

@Lavender2017
Copy link

为什么训练的时候使用单个字转化成索引输入网络,而不是使用像jieba这种分词工具分过之后的词对应的索引输入网络?

@qhduan
Copy link
Owner

qhduan commented Oct 29, 2018

因为作者(我),不喜欢分词

分词本身给句子提供了信息,但是同时也丢失了信息。另外一点就是分词模型让整个模型的总大小扩大了非常多倍,因为中文词可能有5万条,字只有5000多常用字

不过如果你觉得分词更好,模型本身可以是完全一样的

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants