中文 AI 痕迹模式库（17 类）

本文件是 chinese-de-aigc Skill 的核心知识库。按严重度分级（🔴 高 / 🟡 中 / 🟢 低）标注每条规则的触发风险。

一、词汇层面（5 类）

P01 · 四字套话密集 🔴

识别特征：每 200 字出现 3 个以上的四字学术套话。

高危词表：

开篇型：众所周知、不可否认、毋庸置疑、显而易见、综上所述、由此可见、值得注意
推进型：与此同时、除此之外、不仅如此、更进一步、在此基础上、据此推断
结论型：总而言之、归根结底、不言而喻、可想而知、自不待言

检测逻辑：滑动窗口扫描，每 200 字内计数四字套话数量，阈值为 3。

修复策略：删除，或替换为带研究情境的具体表达。

"毋庸置疑，数字化转型对企业绩效..." → "基于本文 2015-2023 年的面板数据，数字化转型对企业绩效..."

P02 · 书面语虚词堆叠 🟡

识别特征：连续使用多个书面虚词，使语言显得僵硬。

典型组合：

"之所以...是因为..." + "由于...故而..."
"对于...而言" + "在...方面" + "就...来说"
"以...为..." + "将...作为..."

修复策略：同一段落内这类结构不超过 1 次，其余改为直接陈述。

P03 · AI 偏好形容词 🟡

高危词表：深远的、深刻的、重大的、显著的、全面的、系统的、多维的、多层次的、全方位的、立体化的、颠覆性的、革命性的、前瞻性的

检测逻辑：这些词在 LLM 中文输出中的频率远高于真实学术文本。

修复策略：删除或替换为带数据支撑的描述。

"该政策产生了深远的影响" → "该政策在处理组中带来了 14.3% 的就业率提升"

P04 · 显性段首连接词 🔴

识别特征：段落开头使用"此外/而且/并且/然而/因此/所以/从而/于是/进而"。

检测逻辑：对每段首句进行正则匹配。

修复策略：去掉连接词，通过语义接力实现段落衔接。

❌ "此外，数字金融还通过...影响..."
✅ "数字金融的另一条作用路径，在于..."

P05 · 并列词过度使用 🟢

高危结构：A、B、C、D 等，或 A/B/C 以及 D

检测逻辑：一段内出现 3+ 个三项以上并列，视为过度。

修复策略：拆分为多句，或选取最重要的 2 项详写、其他略过。

二、句法层面（4 类）

P06 · 句长方差过低 🔴

识别特征：连续 5 句以上，每句字数均在 20-40 字之间。

检测逻辑：计算滑动窗口内句长标准差，阈值 < 8。

修复策略：强制穿插 ≤15 字短句 + ≥50 字长句。

短句示例："这一推论并不成立。" / "数据讲了另一个故事。"
长句：保留复合从句结构

P07 · 主语缺失或模糊 🟡

高危模式：

"本文/本研究认为..."（过度使用）
"研究表明.../相关文献发现..."（没有具体指明哪项研究）
无主句："通过..., 得到..., 表明..."

修复策略：

"本文认为" → 保留但每段不超过 1 次，或改为"我们"
"研究表明" → "Acemoglu and Robinson (2012) 指出..."（加具体文献）

P08 · 被动式规避研究者立场 🟡

识别特征："被...所..."、"被认为是..."、"得以..."的被动结构密集。

修复策略：改为主动句，显示研究者的判断。

❌ "该结果被广泛认为是..."
✅ "多数文献（e.g., Smith 2018; Liu 2020）都将这一结果解读为..."

P09 · 从句嵌套过深 🟢

识别特征：单句嵌套 3 层以上"...的...的...的..."。

修复策略：拆分为 2-3 个独立短句，保留信息量但降低语法复杂度。

三、语篇层面（4 类）

P10 · 机械式总分总结构 🔴

识别特征：每段都是"首句提出观点 → 中间举例 → 末句重申观点"的刻板结构。

检测逻辑：对段首句和段末句做语义相似度检测，相似度 > 0.8 判定为机械式总分总。

修复策略：

去掉末句的总结
或改变中间的叙述视角（从正向论述 → 转折质疑）
或让段末提出新问题而非收束

P11 · 过渡衔接词套路化 🔴

高危模式：段内连续使用"首先...其次...再次...最后..."、"一方面...另一方面..."

检测逻辑：同段内出现 3+ 个序数过渡词。

修复策略：去掉序数词，改为内在逻辑接力。序数词只在必须枚举且枚举逻辑本身就是重点时才用（如"三个稳健性检验"）。

P12 · 绝对化断言 🔴

高危词表：证明了、充分说明、完全证实、毫无疑问、必然导致、绝对、全部、所有、总是、必定

修复策略：降级为认识论上合理的谨慎表述。

绝对化（❌）	谨慎化（✅）
证明了	为...提供了证据 / 与...相一致
充分说明	暗示了 / 可能意味着
必然导致	可能导致 / 倾向于导致
毫无疑问	（直接删除）
所有	大多数 / 在本文样本中
总是	在多数情况下

P13 · 观点与证据分离度不足 🟡

识别特征：提出一个学术观点后紧跟"根据 X 理论/相关研究"而不是具体的数据、文献、案例。

修复策略：每个核心观点后必须跟至少一个可验证的锚点：

具体数据："样本中 2,341 家企业"
具体作者+年份："Acemoglu (2019) 的研究"
具体时间点："2015 年自贸区扩容后"
具体文献回应："这与 Smith (2020) 的结论不一致，原因可能在于..."

四、语气层面（2 类）

P14 · 学术谦逊语气缺失 🟡

识别特征：全文几乎没有"可能/或许/似乎/在一定程度上/在本文的样本中/结果应审慎解读"这类学术谦逊表达。

检测逻辑：hedge 词密度 < 2 个/500 字。

修复策略：在论证章节（文献综述/讨论/结论）每 300 字至少注入 1 个 hedge 表达，但不影响论证力度。

P15 · 情感色彩与主观强调过度 🟢

高危词表：非常、极其、相当、十分、尤为、格外、极大地、巨大地

修复策略：删除或替换为量化描述。

"非常显著" → "在 1% 水平下显著（t = 4.32）"
"极大提升" → "提升了 23.4 个百分点"

五、结构层面（2 类）

P16 · 三段式论证过度对称 🟢

识别特征：连续 3 段都是同样的字数（±10%）和句数（±1 句）。

修复策略：打破对称——某段压缩至 2 句，某段扩展至 7-8 句。真实学术写作的段落长度本身就是非均匀的。

P17 · 结论段落"回音壁" 🔴

识别特征：结论段与引言段/摘要段在用词上高度重合（余弦相似度 > 0.75）。

检测逻辑：对比引言、摘要、结论三段的词频向量。

修复策略：结论段应引入新信息——对未来研究的建议、对政策的启示、对理论边界的反思，而非简单复述研究发现。

检测严重度优先级

必须修复（🔴）：P01, P04, P06, P10, P11, P12, P17 建议修复（🟡）：P02, P03, P07, P08, P13, P14 可选修复（🟢）：P05, P09, P15, P16

建议修复顺序：先修 🔴 再修 🟡，🟢 视时间而定。

与检测器对应关系

中文 AI 检测器	主要敏感模式
知网 AMLC	P01（四字套话）、P12（绝对化）、P06（句长方差）
万方检测	P04（连接词）、P07（模糊主语）、P10（总分总）
维普通达	P01、P03（AI 形容词）、P14（缺 hedge）
Turnitin 中文版	P06（句长）、P13（观点-证据分离）、P11（序数词）
GPTZero 中文	P06（句长方差）、P17（回音壁）

实证观察：修复 7 条 🔴 规则 + 4-5 条 🟡 规则后，主流中文检测器的 AIGC 率通常可从 70%+ 降至 15%-25%。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

中文 AI 痕迹模式库（17 类）

一、词汇层面（5 类）

P01 · 四字套话密集 🔴

P02 · 书面语虚词堆叠 🟡

P03 · AI 偏好形容词 🟡

P04 · 显性段首连接词 🔴

P05 · 并列词过度使用 🟢

二、句法层面（4 类）

P06 · 句长方差过低 🔴

P07 · 主语缺失或模糊 🟡

P08 · 被动式规避研究者立场 🟡

P09 · 从句嵌套过深 🟢

三、语篇层面（4 类）

P10 · 机械式总分总结构 🔴

P11 · 过渡衔接词套路化 🔴

P12 · 绝对化断言 🔴

P13 · 观点与证据分离度不足 🟡

四、语气层面（2 类）

P14 · 学术谦逊语气缺失 🟡

P15 · 情感色彩与主观强调过度 🟢

五、结构层面（2 类）

P16 · 三段式论证过度对称 🟢

P17 · 结论段落"回音壁" 🔴

检测严重度优先级

与检测器对应关系

FilesExpand file tree

patterns.md

Latest commit

History

patterns.md

File metadata and controls

中文 AI 痕迹模式库（17 类）

一、词汇层面（5 类）

P01 · 四字套话密集 🔴

P02 · 书面语虚词堆叠 🟡

P03 · AI 偏好形容词 🟡

P04 · 显性段首连接词 🔴

P05 · 并列词过度使用 🟢

二、句法层面（4 类）

P06 · 句长方差过低 🔴

P07 · 主语缺失或模糊 🟡

P08 · 被动式规避研究者立场 🟡

P09 · 从句嵌套过深 🟢

三、语篇层面（4 类）

P10 · 机械式总分总结构 🔴

P11 · 过渡衔接词套路化 🔴

P12 · 绝对化断言 🔴

P13 · 观点与证据分离度不足 🟡

四、语气层面（2 类）

P14 · 学术谦逊语气缺失 🟡

P15 · 情感色彩与主观强调过度 🟢

五、结构层面（2 类）

P16 · 三段式论证过度对称 🟢

P17 · 结论段落"回音壁" 🔴

检测严重度优先级

与检测器对应关系