忽略重复词的开关开启后，如果要过滤的敏感词中包含重复词时，会检测不出来

使用的版本：0.29.3

<img width="1164" height="1062" alt="Image" src="https://github.com/user-attachments/assets/dba5302c-03ba-4f2a-bf72-9c0139a4b3cb" />

<img width="1027" height="1043" alt="Image" src="https://github.com/user-attachments/assets/68c499a7-833d-4089-9090-678bd417f70e" />

以下是几个case：

1. 开启忽略重复词，且敏感词典包含重复词

示例代码：
    public static void main(String[] args) {
        SensitiveWordBs sensitiveWordBsTest = SensitiveWordBs.newInstance()
                //设置敏感词词典
                .wordDeny(() -> Arrays.asList("fuck1", **"@@@@"**, "f°a°c°e°b°o°o°k", **"嘻嘻哈哈"**)) **// 嘻嘻哈哈 与 嘻嘻哈或 嘻哈哈 的输出效果相同，任何一个字符重叠都不行** 
                // 忽略大小写
                .ignoreCase(true)
                // 忽略半角圆角
                .ignoreWidth(true)
                // 忽略重复词
                .ignoreRepeat(true)
                // 忽略数字的写法
                .ignoreNumStyle(true)
                // 忽略中文的书写格式
                .ignoreChineseStyle(true)
                // 忽略英文的书写格式
                .ignoreEnglishStyle(true)
                .init();
        String data = "fuck1@@@@F°a°c°e°b°o°o°k";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "fuck1";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        **data = "@@@@ 123456";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "ʜᴇʟʟᴏ ᴡᴏʀʟᴅ嘻嘻哈哈哈或或或哈";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "卡其色下经典鸡尾酒嘻嘻哈哈好多好多快递就睡觉";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));**
        data = "ⒻⒻⒻfⓤuⓤ⒰cⓒ⒦1 the bad words";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
    }
输出：
----------[fuck1, F°a°c°e°b°o°o°k]
----------[fuck1]
**----------[]
----------[]
----------[]**
----------[ⒻⒻⒻfⓤuⓤ⒰cⓒ⒦1]

2. 开启忽略重复词，敏感词典不包含重复词
代码示例：
    public static void main(String[] args) {
        SensitiveWordBs sensitiveWordBsTest = SensitiveWordBs.newInstance()
                //设置敏感词词典
                .wordDeny(() -> Arrays.asList("fuck1", **"@"**, "f°a°c°e°b°o°o°k", **"嘻哈"**))
                // 忽略大小写
                .ignoreCase(true)
                // 忽略半角圆角
                .ignoreWidth(true)
                // 忽略重复词
                .ignoreRepeat(true)
                // 忽略数字的写法
                .ignoreNumStyle(true)
                // 忽略中文的书写格式
                .ignoreChineseStyle(true)
                // 忽略英文的书写格式
                .ignoreEnglishStyle(true)
                .init();
        String data = "fuck1@@@@F°a°c°e°b°o°o°k";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "fuck1";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "@@@@ 123456";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "ʜᴇʟʟᴏ ᴡᴏʀʟᴅ嘻嘻哈哈哈或或或哈";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "卡其色下经典鸡尾酒嘻嘻哈哈好多好多快递就睡觉";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "ⒻⒻⒻfⓤuⓤ⒰cⓒ⒦1 the bad words";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
    }
输出：
----------[fuck1, @, @, @, @, F°a°c°e°b°o°o°k]
----------[fuck1]
----------[@, @, @, @]
----------[嘻嘻哈]
----------[嘻嘻哈]
----------[ⒻⒻⒻfⓤuⓤ⒰cⓒ⒦1]

3. 关闭忽略重复词，敏感词包含重复词
代码示例：
    public static void main(String[] args) {
        SensitiveWordBs sensitiveWordBsTest = SensitiveWordBs.newInstance()
                //设置敏感词词典
                .wordDeny(() -> Arrays.asList("fuck1", "@@@@", "f°a°c°e°b°o°o°k", "嘻嘻哈哈"))
                // 忽略大小写
                .ignoreCase(true)
                // 忽略半角圆角
                .ignoreWidth(true)
                // 忽略重复词
//                .ignoreRepeat(true)
                // 忽略数字的写法
                .ignoreNumStyle(true)
                // 忽略中文的书写格式
                .ignoreChineseStyle(true)
                // 忽略英文的书写格式
                .ignoreEnglishStyle(true)
                .init();
        String data = "fuck1@@@@F°a°c°e°b°o°o°k";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "fuck1";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "@@@@ 123456";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "ʜᴇʟʟᴏ ᴡᴏʀʟᴅ嘻嘻哈哈哈或或或哈";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "卡其色下经典鸡尾酒嘻嘻哈哈好多好多快递就睡觉";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "ⒻⒻⒻfⓤuⓤ⒰cⓒ⒦1 the bad words";
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
        data = "Ⓕf⒰ⓒ⒦1 the bad words"; **// 这是比前面示例多出来的一个样本，用来检查忽略书写格式功能是否正常，用以与重复词版本对照**
        System.out.println("----------" + sensitiveWordBsTest.findAll(data));
    }
输出：
----------[fuck1, @@@@, F°a°c°e°b°o°o°k]
----------[fuck1]
----------[@@@@]
----------[嘻嘻哈哈]
----------[嘻嘻哈哈]
----------[]
----------[f⒰ⓒ⒦1]  **// 这是比前面示例多出来的一个样本，用来检查忽略书写格式功能是否正常，用以与重复词版本对照**

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

忽略重复词的开关开启后，如果要过滤的敏感词中包含重复词时，会检测不出来 #136

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

忽略重复词的开关开启后，如果要过滤的敏感词中包含重复词时，会检测不出来 #136

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions