-
-
Notifications
You must be signed in to change notification settings - Fork 1.4k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
MeiliSearch設定されたサーバーの検索で外部サーバーの投稿が結果に出ない場合がある #10845
Comments
ioは昔の投稿についてはローカルしか取り込まなかったはず |
ioのインデックスが原因か。 もし別の原因あったらreopenしてください |
以前というと? |
ElasticSearch時代のことなのかPostgreSQL時代のことなのか |
PostgreSQLの方は単純な部分一致検索なのでMeilisearchよりも精度という意味では高い |
DB検索だった頃と比べて極端にヒットが少ない。p1.a9z.dev(未導入?)で「Misskey しゅいろ」検索すると他にもいろんなioを含む投稿がヒットするが、ioだと直近でも3ヶ月前だったりしにゃい |
「しゅいろさん」とかが含まれる文章はMeilisearchでは「しゅいろ」ではヒットしないわね |
形態素解析の限界そう |
😭 |
p1.a9z.devはPGroongaなんだけど、(日本語では)PGroongaのほうがいいらしい? |
いきなり失礼します。Twitterで見かけて気になったのでコメントしにきました。
Ref: https://www.atilika.com/ja/kuromoji/ 実際に手元でやってみたところ結果は返ってはくるのですが、やはり
(追記)manticore-searchが単純にハイライト部分をマージして結果を出しているだけかもしれないのでこの部分は訂正します。すいません。 MeiliSearchの改善ポイントかなと思いますので、時間作ってIssue立ててみます。 |
Meilisearchは内部的に日本語の形態素解析にkuromojiを使用している感じですかね?そういうわけではない?
ありがとうございます!!! |
kuromoji をベースに開発された kuromoji-rs の fork である lindera を使用している |
本件、もしかして冒頭に書いていただいている |
わかる (しゅいろで検索できてMisskeyと検索すると出てこないのは少々おかしい) |
ちなみにCJK対応に関してちょっと問題があるので使うMeilliSearchのバージョンはこっちにした方がいいです |
はい、検索が日本語と英単語だけならそれが良いと思います。中国や台湾のユーザーさんも視野に入れるならちょっと考えたほうがいいかもしれません。(中国語対応を外して日本語強制しているバージョンなので) 英単語 + 日本語で問題無い文字列と問題がある文字列があるみたいなので、いくつかパターン出してバグ報告してきます |
いくつかパターンを書いてみて試したのですが、結局
のあわせ技によって検索結果がおもてたんとちゃうになっているようです。(二転三転しました 🙇 ) 要は固有名詞(Misskeyの場合はユーザーのお名前など)を適切に扱えるようになれば良いと思いますので、日本語対応のスレッドにて確認中です。 (良い例文がぱっと思い浮かばなくて、しゅいろさんをたくさん出してしまいました) |
💡 Summary
MeiliSearch設定されたサーバーの検索で外部サーバーの投稿が結果に出てこないワード?がある
🥰 Expected Behavior
外部サーバーの投稿を含めた結果が返される
🤬 Actual Behavior
外部サーバーの投稿が含まれていない結果が返される
📝 Steps to Reproduce
1.ioで「Misskey」または「Misskey しゅいろ」と検索
2.「Misskey」の場合は外部サーバーが出てくるが、「Misskey しゅいろ」の場合に出てこない
📌 Environment
Misskey version:13.12.2
The text was updated successfully, but these errors were encountered: