Skip to content

誤変換かな?と思ったら

Tokuhiro Matsuno edited this page Jan 12, 2023 · 5 revisions

ユーザー辞書による学習によるものの可能性があります。

cd akaza-data/ && make && cargo run -- check せんたくもの のようにして、検索結果がユーザー辞書によるものではないことを確認してください。

原因によっていくつか対応方法があります。

ある単語が他の単語より優先されるべきだ、という場合

のように、Wikipedia コーパスベースのスコアがおかしいという場合は↓このへんをいじってください。

https://github.com/tokuhirom/akaza/blob/master/akaza-data/src/subcmd/make_stats_system_unigram_lm.rs#L77

同形異音ごがある単語が候補に出ない

たとえば "日本"というワードに対して、vibrato などの形態素解析機は常に同じ読みを返します。"日本/にほん" ばっかり帰ってくるので、"日本/にっぽん"の方はスコアがつかないということになります。

ここはテでチューニングする必要があります。↓このへんに登録してください。

https://github.com/tokuhirom/akaza/blob/master/akaza-data/src/subcmd/make_stats_system_unigram_lm.rs#L57

メモ

↑コードの特定の場所を指定させるよりも、ちゃんと CSV ファイルかなにかにかけるようにした方がよい。

Clone this wiki locally