Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
1 change: 1 addition & 0 deletions AGENTS.md
Original file line number Diff line number Diff line change
Expand Up @@ -323,6 +323,7 @@ accept.tsv に入れてはいけないもの:
5. wfreq の生データは `akaza-corpus-stats/work/vibrato-ipadic.wfreq` で確認可能
- **コスト計算の仕組み**: 最終的な候補コスト = Σ(unigram node cost + bigram edge cost) の累積。unigram コストは `-log₁₀((count + α) / (total + α + unique))` で計算。bigram edge が LM にない場合はデフォルト edge cost(約14.3)が適用される。unigram が LM にない場合は `calc_cost(0, ...)` のフォールバック値(約10〜12)が適用される
- **ひらがな候補のLM参照**: graph_builder で、ひらがな候補が SKK 辞書に登録されている場合は辞書候補パスで処理され LM スコアが参照される。辞書に未登録のひらがな候補はフォールバックパス(`word_id_and_score=None`)で処理され、LM の実際の頻度に関係なく固定の高コストが適用される
- **k-best の k 値の制約**: convert 時の k-best パス数は速度面の制約から k=5 程度が現実的な上限。k を大きくすると候補パターンは増えるが、パフォーマンスが悪化する。辞書複合語の登録だけでは viterbi コストが高く k-best に乗らないケースがあるため、k を増やすのではなく unigram/bigram のスコア調整で対処すること

### デフォルトモデルの Release

Expand Down
2 changes: 2 additions & 0 deletions default-model/dict/SKK-JISYO.akaza
Original file line number Diff line number Diff line change
Expand Up @@ -27,7 +27,9 @@
そんなん /そんなん/
あんなん /あんなん/
どんなん /どんなん/
かくこうもく /各項目/
かくしせつ /核施設/各施設/
かくぷろじぇくと /各プロジェクト/
かくふぁいる /各ファイル/
かくふかくさんじょうやく /核不拡散条約/
こうそう /香草/
Expand Down
1 change: 1 addition & 0 deletions default-model/evaluate-history.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -14,3 +14,4 @@ datetime commit branch corpus_stats good top5 bad recall
2026-02-24 17:05 7c93f16d fix/suki-bos-overfit v2026.0216.0 6784 343 3938 93.29374
2026-02-27 01:27 6ce304fd fix/ishi-bos-bigram v2026.0216.0 6805 350 3910 93.33365
2026-02-27 16:22 ac20627a main v2026.0216.0 7179 382 3504 93.95394
2026-02-27 18:35 7224fbe8 main v2026.0216.0 6805 350 3910 93.33365