Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

希望了解下这个插件的设计思路与实现方式 #6

Open
Renkai opened this issue Jan 24, 2023 · 3 comments
Open

希望了解下这个插件的设计思路与实现方式 #6

Renkai opened this issue Jan 24, 2023 · 3 comments

Comments

@Renkai
Copy link

Renkai commented Jan 24, 2023

作者您好! 我对实现类似的东西也有兴趣, 可是目前网上的资料和这个插件本身的文档都比较少, 所以想请教一下设计思路和一些做法.

设计目标:

  • 我没理解错的话, 它应该是在用户输入长内容的时候, 分析每个位置更有可能正确的候选词, 对候选词列表的优先级进行调整, 来实现尽可能地减小选词需求?

模型:

  • 使用了哪些算法, 生成的神经网络大概什么样?

语料库:

  • 生成模型的语料库具体的列表是否还在? 我想获得一份的话要去哪些地方找呢?
@gaboolic
Copy link

gaboolic commented Feb 6, 2024

马尔科夫链

@lotem
Copy link
Owner

lotem commented Feb 7, 2024

沒有了。
n-gram 老模型,沒啥技術含量。
語料,當時借用大廠的資源收集處理網頁,用一份開源的 詞表 分詞後統計共現次數,裁剪…畢竟當練手項目摸魚做,就簡單弄弄,沒仔細調。
唯一與衆不同的是原生支持繁體;詞表是繁簡對照。因此該語言模型也能支持繁簡兩種字形。

@lotem
Copy link
Owner

lotem commented Feb 7, 2024

對了。Rime 讓用戶自定義詞典,沒有固定的詞彙表。
那麼語言模型的數據庫就不能存儲詞的 ID 之類而是用文字檢索二元組。
具體輸入方案的詞典分詞的粒度不同,有一些實現細節上的挑戰。

總之不是非常標準的實現。要參考還是參考更典型的 昇陽拼音 和 BYVoid 的 習作

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants