Skip to content

「各項目」「各プロジェクト」の辞書複合語登録#527

Merged
tokuhirom merged 1 commit into
mainfrom
fix/dict-kaku-compound
Mar 2, 2026
Merged

「各項目」「各プロジェクト」の辞書複合語登録#527
tokuhirom merged 1 commit into
mainfrom
fix/dict-kaku-compound

Conversation

@tokuhirom
Copy link
Copy Markdown
Collaborator

Summary

  • 各/書く/核 の同音異義語問題に対して、辞書に複合語エントリを追加
  • AGENTS.md に k-best の k 値制約に関する知見を追記

変更内容

辞書登録

  • かくこうもく /各項目/ — 「かくこうもく」単体変換では rerank により「各項目」が1位になることを確認
  • かくぷろじぇくと /各プロジェクト/

AGENTS.md

  • k-best の k 値は速度面から k=5 程度が現実的な上限であることを追記

既知の制約

長い文(例: 「かくこうもくのいみをしりたい」)では、各項目 パスの viterbi コストが高く k-best (k=10) に乗らないため、「書く/項目」が選ばれる。単体変換(「かくこうもく」のみ)では rerank で正しく「各項目」が1位になる。長い文での改善は今後のスコア調整課題。

テスト結果

  • evaluate: Recall=93.33365(ベースラインと同値、退行なし)

🤖 Generated with Claude Code

- SKK-JISYO.akaza に「各項目」「各プロジェクト」を複合語として登録
- 「かくこうもく」単体変換では rerank により「各項目」が1位になる
- 長い文では k-best に乗らないため今後のスコア調整が必要
- AGENTS.md に k-best の k 値制約(k=5 が現実的上限)を追記

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
@tokuhirom tokuhirom enabled auto-merge March 2, 2026 02:09
@tokuhirom tokuhirom force-pushed the fix/dict-kaku-compound branch from 5bd110c to 3fcf2b7 Compare March 2, 2026 02:09
@tokuhirom tokuhirom merged commit 080da64 into main Mar 2, 2026
5 checks passed
@tokuhirom tokuhirom deleted the fix/dict-kaku-compound branch March 2, 2026 02:10
@akaza-tagpr akaza-tagpr Bot mentioned this pull request Mar 2, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant