We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
作者您好! 我对实现类似的东西也有兴趣, 可是目前网上的资料和这个插件本身的文档都比较少, 所以想请教一下设计思路和一些做法.
设计目标:
模型:
语料库:
The text was updated successfully, but these errors were encountered:
马尔科夫链
Sorry, something went wrong.
沒有了。 n-gram 老模型,沒啥技術含量。 語料,當時借用大廠的資源收集處理網頁,用一份開源的 詞表 分詞後統計共現次數,裁剪…畢竟當練手項目摸魚做,就簡單弄弄,沒仔細調。 唯一與衆不同的是原生支持繁體;詞表是繁簡對照。因此該語言模型也能支持繁簡兩種字形。
對了。Rime 讓用戶自定義詞典,沒有固定的詞彙表。 那麼語言模型的數據庫就不能存儲詞的 ID 之類而是用文字檢索二元組。 具體輸入方案的詞典分詞的粒度不同,有一些實現細節上的挑戰。
總之不是非常標準的實現。要參考還是參考更典型的 昇陽拼音 和 BYVoid 的 習作。
No branches or pull requests
作者您好! 我对实现类似的东西也有兴趣, 可是目前网上的资料和这个插件本身的文档都比较少, 所以想请教一下设计思路和一些做法.
设计目标:
模型:
语料库:
The text was updated successfully, but these errors were encountered: