Gemini CLI 在每次会话中自动加载此文件作为项目上下文。完整工作流契约见 AGENTS.md。
collate 是一个中文历史文献 OCR + 校对工具包。从扫描件到最终的 Word 稿和公众号推文,agent 自主完成清理、识别、校对、自审、排版。所有中间产物保留在工作区,方便逐行溯源。
pipeline 之上还有一层阅读 skill——用学术方法而非数据提取的方式与文本对话。
8 个流水线 + 7 个阅读。每个 skill 是一个自包含目录:SKILL.md(指令)+ scripts/(Python)+ references/(知识库)。
| Skill | 做什么 | 何时调用 |
|---|---|---|
| setup | 环境诊断(Python、poppler、OCR 凭据) | 首次使用 |
| prep-scan | 去水印 / 去馆藏章 / 裁边 → cleaned.pdf | 拿到 PDF 后 |
| visual-preview | 清理结果三态 HTML 预览 | prep-scan 后 |
| ocr-run | MinerU / 百度 OCR → raw.md + meta.json | visual-preview 后 |
| proofread | 五步 checklist → A/B/C 三级校对清单 | raw.md 就位后 |
| diff-review | raw vs final 语义级审计 HTML | final.md 就位后 |
| to-docx | 学术 Word 文档 | diff-review 后 |
| mp-format | 公众号排版 HTML + xiumi sidecar | 最后一步 |
| Skill | 做什么 |
|---|---|
| xray-paper | 单篇论文 X 光透视(Obsidian 原生) |
| paper-summary | 5–30 篇语料图谱(Obsidian 原生) |
| chunqiu | 读禁忌、裁断与策略性沉默 |
| kaozheng | 审引文、来源等级与论证链 |
| prometheus | 定义一个概念,渲染 SVG 卡片 |
| real-thesis | 挖掘论文绕而未写的真命题 |
| constellatio | 跨时代接受史诊断 + 可选星图可视化 |
读取目标 skill 的 SKILL.md 获取完整指令,然后通过 shell 执行 Python 脚本:
# 1. 读 skill 契约
cat skills/<skill-name>/SKILL.md
# 2. 执行脚本(示例:拆页)
python3 skills/prep-scan/scripts/split_pages.py \
--pdf "$WORK_DIR/original.pdf" --out "$WORK_DIR/pages" --dpi 300一条命令跑完整 pipeline(不需要 agent 介入):
python3 scripts/run_full_pipeline.py --pdf <input.pdf>| Agent | 文件 | 职责 |
|---|---|---|
| ocr-pipeline-operator | agents/ocr-pipeline-operator.md |
流水线总调度:机械编排 → 校对 → 自审 → 交付 |
| historical-proofreader | agents/historical-proofreader.md |
校对领域专家:五步 checklist,产出 A/B/C 分级清单 |
调度 subagent 的方式:开一个新的 Gemini CLI 会话,把 agent 定义作为上下文加载:
gemini -C agents/historical-proofreader.md \
"type=modern, 请按五步 checklist 校对 $WORK_DIR/raw.md"或在当前会话中用 @agents/historical-proofreader.md 引用 agent 定义。
每份 PDF 产生一个 <basename>.ocr/ 目录。详见 references/workspace-layout.md。
关键子目录:prep/(清理中间产物)、output/(最终交付:docx + wechat)、review/(校对清单)、previews/(HTML 审计页)。
export COLLATE_ROOT=/path/to/collate
export OCR_ENGINE=mineru # mineru | mineru-cloud | baidu
# 仅 baidu 引擎需要:
export BAIDU_OCR_API_KEY=...
export BAIDU_OCR_SECRET_KEY=...- 端到端自主:从 PDF 到 docx + wechat.html 由 agent 独立完成
- 不替换学术判断:C 类(存疑待考)条目保留原文 + 脚注,由读者判断
- 失败要显性:结构化错误上报,不静默兜底
- 保留可追溯性:所有中间产物落盘,不清理
- AGENTS.md — 完整工作流契约与 skill 调用规范
- docs/ARCHITECTURE.md — skill 边界、数据流、文件布局
- docs/INTEGRATIONS.md — 跨运行时接入手册
- docs/TROUBLESHOOTING.md — 常见问题