Skip to content

分享一个自己生成的特征文件 char_meta.txt  #33

@Lijiachen1018

Description

@Lijiachen1018

char_meta.txt

约10MB大小,不能保证完全正确。

几行预览:

U+4E07	万	wan4,mo4;maan6,mak6;MAN,MWUK;MAN,BAN;vạn	⿱一⿰丿𠃌
U+4E08	丈	zhang4;zoeng6;CANG;JOU,CHOU;trượng	⿻一⿻㇇乀
U+4E09	三	san1;saam1,saam3;SAM;SAN;tam	⿱一⿱一一
U+4E0A	上	shang4,shang3;soeng5,soeng6;SANG;JOU,SHOU;thượng	⿱⿰丨一一
U+4E0B	下	xia4;haa5,haa6;HA;KA,GE;hạ	⿱一⿻丨丶
U+4E0C	丌	qi2,ji1;gei1;KI;KI,GI;null	⿱一⿰丿丨

生成过程

  • Unihan_Readings.txt获取汉字的各个语言发音
    • 汉语多音字kHanyuPinyin, kMandarin, kTGHZ2013, kXHC1983
    • 各语言kCantonese, kKorean, kJapaneseOn, kVietnamese
  • ids.txt遍历拆解汉字笔画,
    • 拆解复杂字,在ids.txt提供了部件笔画的
    • 部分简单字没有笔画,利用makemehanzi的笔画
    • 获取所有中文笔画的集合,cjklib分解后只有1画的
    • 还是部分简单字没有笔画,标注后再遍历(利用wiki dictionary和自己标)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions