Skip to content

Commit 5bd110c

Browse files
tokuhiromclaude
andcommitted
「各項目」「各プロジェクト」の辞書登録と k-best 制約の知見追記
- SKK-JISYO.akaza に「各項目」「各プロジェクト」を複合語として登録 - 「かくこうもく」単体変換では rerank により「各項目」が1位になる - 長い文では k-best に乗らないため今後のスコア調整が必要 - AGENTS.md に k-best の k 値制約(k=5 が現実的上限)を追記 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
1 parent 7224fbe commit 5bd110c

3 files changed

Lines changed: 4 additions & 0 deletions

File tree

AGENTS.md

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -323,6 +323,7 @@ accept.tsv に入れてはいけないもの:
323323
5. wfreq の生データは `akaza-corpus-stats/work/vibrato-ipadic.wfreq` で確認可能
324324
- **コスト計算の仕組み**: 最終的な候補コスト = Σ(unigram node cost + bigram edge cost) の累積。unigram コストは `-log₁₀((count + α) / (total + α + unique))` で計算。bigram edge が LM にない場合はデフォルト edge cost(約14.3)が適用される。unigram が LM にない場合は `calc_cost(0, ...)` のフォールバック値(約10〜12)が適用される
325325
- **ひらがな候補のLM参照**: graph_builder で、ひらがな候補が SKK 辞書に登録されている場合は辞書候補パスで処理され LM スコアが参照される。辞書に未登録のひらがな候補はフォールバックパス(`word_id_and_score=None`)で処理され、LM の実際の頻度に関係なく固定の高コストが適用される
326+
- **k-best の k 値の制約**: convert 時の k-best パス数は速度面の制約から k=5 程度が現実的な上限。k を大きくすると候補パターンは増えるが、パフォーマンスが悪化する。辞書複合語の登録だけでは viterbi コストが高く k-best に乗らないケースがあるため、k を増やすのではなく unigram/bigram のスコア調整で対処すること
326327

327328
### デフォルトモデルの Release
328329

default-model/dict/SKK-JISYO.akaza

Lines changed: 2 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -27,7 +27,9 @@
2727
そんなん /そんなん/
2828
あんなん /あんなん/
2929
どんなん /どんなん/
30+
かくこうもく /各項目/
3031
かくしせつ /核施設/各施設/
32+
かくぷろじぇくと /各プロジェクト/
3133
かくふぁいる /各ファイル/
3234
かくふかくさんじょうやく /核不拡散条約/
3335
こうそう /香草/

default-model/evaluate-history.tsv

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -13,3 +13,4 @@ datetime commit branch corpus_stats good top5 bad recall
1313
2026-02-24 16:30 7c93f16d main v2026.0216.0 6780 343 3942 93.27101
1414
2026-02-24 17:05 7c93f16d fix/suki-bos-overfit v2026.0216.0 6784 343 3938 93.29374
1515
2026-02-27 01:27 6ce304fd fix/ishi-bos-bigram v2026.0216.0 6805 350 3910 93.33365
16+
2026-02-27 18:35 7224fbe8 main v2026.0216.0 6805 350 3910 93.33365

0 commit comments

Comments
 (0)