Skip to content

为啥罗马数字与中文字符的组合总被分成两部分 #1037

@eckl

Description

@eckl

比如Ⅰ段、Ⅱ段、Ⅲ段
总被分成:['Ⅰ', '段']、['Ⅱ', '段']、['Ⅲ', '段']

即使我在自定义词典中增加词频
Ⅰ段 1000 n
或者
jieba.add_word('Ⅰ段')
抑或,关闭新词发现
HMM=False
再或,确保分词字符串和用户词典都是UTF-8格式

可是都不管用

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions