Skip to content

Sudachi 辞書からカタカナ普通名詞を取り込み#513

Merged
tokuhirom merged 1 commit into
mainfrom
feat/sudachi-katakana-dict
Feb 25, 2026
Merged

Sudachi 辞書からカタカナ普通名詞を取り込み#513
tokuhirom merged 1 commit into
mainfrom
feat/sudachi-katakana-dict

Conversation

@tokuhirom
Copy link
Copy Markdown
Collaborator

Summary

  • Sudachi 辞書から固有名詞に加えてカタカナ普通名詞も取り込むようにした
  • 「リダイレクタ」「プロキシ」等のカタカナ語が変換可能になる
  • 評価結果: 93.33%(退行なし)

変更内容

make_dict.rs

  • make_sudachi_dict のフィルタを拡張し、名詞-普通名詞 かつ表層形が全カタカナのエントリも取り込み
  • カタカナ普通名詞は見出し形(csv[0])を使用(読みと長音記号のあり/なしが揃うため)
  • 固有名詞は従来通り表記形(csv[12])を使用(漢字表記等があるため)
  • 表層形に日本語文字を含まないエントリをスキップするフィルタを追加

Makefile

  • small_lex.csv, core_lex.csv のダウンロードターゲットを追加
  • data/SKK-JISYO.akaza ターゲットに3ファイル全て(small_lex, core_lex, notcore_lex)を依存として追加

テスト結果

# カタカナ語の変換確認
りだいれくた → リダイレクタ ✓
りだいれくたー → リダイレクター ✓
ぷろきし → プロキシ ✓

# 評価
good=6784, top5=343, bad=3938, recall=93.33%

🤖 Generated with Claude Code

Sudachi 辞書から固有名詞(名詞-固有名詞-一般)に加えて、
カタカナ普通名詞(表層形が全カタカナの名詞-普通名詞)も
取り込むようにした。

- small_lex, core_lex, notcore_lex の3ファイルを使用
- カタカナ普通名詞は見出し形(csv[0])を使用
  (読みと長音記号のあり/なしが揃うため)
- 固有名詞は従来通り表記形(csv[12])を使用
- Makefile に small_lex, core_lex のダウンロードターゲットを追加

これにより「リダイレクタ」「プロキシ」等のカタカナ語が
変換可能になる。評価結果: 93.33%(退行なし)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
@tokuhirom tokuhirom merged commit b174828 into main Feb 25, 2026
4 checks passed
@tokuhirom tokuhirom deleted the feat/sudachi-katakana-dict branch February 25, 2026 05:28
@akaza-tagpr akaza-tagpr Bot mentioned this pull request Feb 25, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant