Skip to content

Latest commit

 

History

History
230 lines (137 loc) · 8.03 KB

File metadata and controls

230 lines (137 loc) · 8.03 KB

中文 AI 痕迹模式库(17 类)

本文件是 chinese-de-aigc Skill 的核心知识库。按严重度分级(🔴 高 / 🟡 中 / 🟢 低)标注每条规则的触发风险。


一、词汇层面(5 类)

P01 · 四字套话密集 🔴

识别特征:每 200 字出现 3 个以上的四字学术套话。

高危词表

  • 开篇型:众所周知、不可否认、毋庸置疑、显而易见、综上所述、由此可见、值得注意
  • 推进型:与此同时、除此之外、不仅如此、更进一步、在此基础上、据此推断
  • 结论型:总而言之、归根结底、不言而喻、可想而知、自不待言

检测逻辑:滑动窗口扫描,每 200 字内计数四字套话数量,阈值为 3。

修复策略:删除,或替换为带研究情境的具体表达

  • "毋庸置疑,数字化转型对企业绩效..." → "基于本文 2015-2023 年的面板数据,数字化转型对企业绩效..."

P02 · 书面语虚词堆叠 🟡

识别特征:连续使用多个书面虚词,使语言显得僵硬。

典型组合

  • "之所以...是因为..." + "由于...故而..."
  • "对于...而言" + "在...方面" + "就...来说"
  • "以...为..." + "将...作为..."

修复策略:同一段落内这类结构不超过 1 次,其余改为直接陈述。


P03 · AI 偏好形容词 🟡

高危词表:深远的、深刻的、重大的、显著的、全面的、系统的、多维的、多层次的、全方位的、立体化的、颠覆性的、革命性的、前瞻性的

检测逻辑:这些词在 LLM 中文输出中的频率远高于真实学术文本。

修复策略:删除或替换为带数据支撑的描述

  • "该政策产生了深远的影响" → "该政策在处理组中带来了 14.3% 的就业率提升"

P04 · 显性段首连接词 🔴

识别特征:段落开头使用"此外/而且/并且/然而/因此/所以/从而/于是/进而"。

检测逻辑:对每段首句进行正则匹配。

修复策略:去掉连接词,通过语义接力实现段落衔接。

  • ❌ "此外,数字金融还通过...影响..."
  • ✅ "数字金融的另一条作用路径,在于..."

P05 · 并列词过度使用 🟢

高危结构:A、B、C、D 等,或 A/B/C 以及 D

检测逻辑:一段内出现 3+ 个三项以上并列,视为过度。

修复策略:拆分为多句,或选取最重要的 2 项详写、其他略过。


二、句法层面(4 类)

P06 · 句长方差过低 🔴

识别特征:连续 5 句以上,每句字数均在 20-40 字之间。

检测逻辑:计算滑动窗口内句长标准差,阈值 < 8。

修复策略:强制穿插 ≤15 字短句 + ≥50 字长句。

  • 短句示例:"这一推论并不成立。" / "数据讲了另一个故事。"
  • 长句:保留复合从句结构

P07 · 主语缺失或模糊 🟡

高危模式

  • "本文/本研究认为..."(过度使用)
  • "研究表明.../相关文献发现..."(没有具体指明哪项研究)
  • 无主句:"通过..., 得到..., 表明..."

修复策略

  • "本文认为" → 保留但每段不超过 1 次,或改为"我们"
  • "研究表明" → "Acemoglu and Robinson (2012) 指出..."(加具体文献)

P08 · 被动式规避研究者立场 🟡

识别特征:"被...所..."、"被认为是..."、"得以..."的被动结构密集。

修复策略:改为主动句,显示研究者的判断。

  • ❌ "该结果被广泛认为是..."
  • ✅ "多数文献(e.g., Smith 2018; Liu 2020)都将这一结果解读为..."

P09 · 从句嵌套过深 🟢

识别特征:单句嵌套 3 层以上"...的...的...的..."。

修复策略:拆分为 2-3 个独立短句,保留信息量但降低语法复杂度。


三、语篇层面(4 类)

P10 · 机械式总分总结构 🔴

识别特征:每段都是"首句提出观点 → 中间举例 → 末句重申观点"的刻板结构。

检测逻辑:对段首句和段末句做语义相似度检测,相似度 > 0.8 判定为机械式总分总。

修复策略

  • 去掉末句的总结
  • 或改变中间的叙述视角(从正向论述 → 转折质疑)
  • 或让段末提出新问题而非收束

P11 · 过渡衔接词套路化 🔴

高危模式:段内连续使用"首先...其次...再次...最后..."、"一方面...另一方面..."

检测逻辑:同段内出现 3+ 个序数过渡词。

修复策略:去掉序数词,改为内在逻辑接力。序数词只在必须枚举且枚举逻辑本身就是重点时才用(如"三个稳健性检验")。


P12 · 绝对化断言 🔴

高危词表:证明了、充分说明、完全证实、毫无疑问、必然导致、绝对、全部、所有、总是、必定

修复策略:降级为认识论上合理的谨慎表述。

绝对化(❌) 谨慎化(✅)
证明了 为...提供了证据 / 与...相一致
充分说明 暗示了 / 可能意味着
必然导致 可能导致 / 倾向于导致
毫无疑问 (直接删除)
所有 大多数 / 在本文样本中
总是 在多数情况下

P13 · 观点与证据分离度不足 🟡

识别特征:提出一个学术观点后紧跟"根据 X 理论/相关研究"而不是具体的数据、文献、案例

修复策略:每个核心观点后必须跟至少一个可验证的锚点

  • 具体数据:"样本中 2,341 家企业"
  • 具体作者+年份:"Acemoglu (2019) 的研究"
  • 具体时间点:"2015 年自贸区扩容后"
  • 具体文献回应:"这与 Smith (2020) 的结论不一致,原因可能在于..."

四、语气层面(2 类)

P14 · 学术谦逊语气缺失 🟡

识别特征:全文几乎没有"可能/或许/似乎/在一定程度上/在本文的样本中/结果应审慎解读"这类学术谦逊表达。

检测逻辑:hedge 词密度 < 2 个/500 字。

修复策略:在论证章节(文献综述/讨论/结论)每 300 字至少注入 1 个 hedge 表达,但不影响论证力度。


P15 · 情感色彩与主观强调过度 🟢

高危词表:非常、极其、相当、十分、尤为、格外、极大地、巨大地

修复策略:删除或替换为量化描述

  • "非常显著" → "在 1% 水平下显著(t = 4.32)"
  • "极大提升" → "提升了 23.4 个百分点"

五、结构层面(2 类)

P16 · 三段式论证过度对称 🟢

识别特征:连续 3 段都是同样的字数(±10%)和句数(±1 句)。

修复策略:打破对称——某段压缩至 2 句,某段扩展至 7-8 句。真实学术写作的段落长度本身就是非均匀的。


P17 · 结论段落"回音壁" 🔴

识别特征:结论段与引言段/摘要段在用词上高度重合(余弦相似度 > 0.75)。

检测逻辑:对比引言、摘要、结论三段的词频向量。

修复策略:结论段应引入新信息——对未来研究的建议、对政策的启示、对理论边界的反思,而非简单复述研究发现。


检测严重度优先级

必须修复(🔴):P01, P04, P06, P10, P11, P12, P17 建议修复(🟡):P02, P03, P07, P08, P13, P14 可选修复(🟢):P05, P09, P15, P16

建议修复顺序:先修 🔴 再修 🟡,🟢 视时间而定

与检测器对应关系

中文 AI 检测器 主要敏感模式
知网 AMLC P01(四字套话)、P12(绝对化)、P06(句长方差)
万方检测 P04(连接词)、P07(模糊主语)、P10(总分总)
维普通达 P01、P03(AI 形容词)、P14(缺 hedge)
Turnitin 中文版 P06(句长)、P13(观点-证据分离)、P11(序数词)
GPTZero 中文 P06(句长方差)、P17(回音壁)

实证观察:修复 7 条 🔴 规则 + 4-5 条 🟡 规则后,主流中文检测器的 AIGC 率通常可从 70%+ 降至 15%-25%。