本项目旨在从中国计算机学会(CCF)推荐国际学术会议和期刊目录第七版(2026 年 3 月更新)的官方 PDF 文件中提取会议与期刊数据,并将其转化为结构化的数据格式导出。
本项目目前专注于以下核心功能:
- 解析 CCF 官方发布的 PDF 目录文件
- 精准提取目录中的结构化条目信息
- 导出适用于多种分析场景的基础数据文件
- 为 CSV、JSON、Excel 等轻量级数据分析场景提供支持
现阶段,本项目暂不涉及会议截稿日期(Deadline,常简称为 DDL)的追踪与收集,亦不引入复杂的数据库建模。项目的核心产出为扁平化的数据文件,您可以直接将其无缝集成到 Excel、Python 脚本、BI 工具或其它下游数据处理流水线中。
- 数据来源:CCF 推荐国际学术会议和期刊目录第七版(2026 年 3 月更新)
- 提取目标:会议、期刊的目录条目数据
- 输出格式:CSV、JSON
- 适用场景:数据分析、目录版本对比、筛选统计及后续辅助信息补全
ccf-catalog-2026-03/
├── data/
│ ├── raw/
│ │ └── 中国计算机学会推荐国际学术会议和期刊目录第七版(2026年3月更新).pdf
│ └── processed/
│ ├── ccf_catalog_2026_03_full.csv
│ └── ccf_catalog_2026_03_full.json
├── scripts/
│ └── extract_catalog_pdf.py
├── .gitignore
├── requirements.txt
└── README.md
提取脚本目前支持输出以下字段:
category:专业领域type:类型(如:会议 / 期刊)rank:等级(如:A / B / C 类)page_id:由页码与序号组合生成的唯一标识符abbr:会议 / 期刊简称full_name:会议 / 期刊全称publisher:出版社 / 主办机构url:官方网址notes:备注信息(如:新增、升级、删除等变动记录)
以上字段与原始 PDF 目录行一一对应,非常适合进行后续的数据匹配、清洗、补全和统计分析。
- 创建并激活 Python 虚拟环境
- 安装依赖包
- 运行数据提取脚本
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
python scripts/extract_catalog_pdf.py如需额外生成用于人工复核的对照清单,请添加 --review 参数:
python scripts/extract_catalog_pdf.py --review脚本运行完毕后,提取的数据文件将保存在以下路径:
data/processed/ccf_catalog_2026_03_full.csvdata/processed/ccf_catalog_2026_03_full.json
其中:
- CSV 文件:适合直接使用 Excel 导入或打开,便于进行人工审查和常规分析。
- JSON 文件:适合程序脚本读取,方便接入后续的数据自动化流水线(Data Pipeline)。
如果使用了 --review 参数,系统还会额外生成以下复核文件:
data/processed/ccf_catalog_2026_03_review.csvdata/processed/ccf_catalog_2026_03_review.json
- 本项目的提取逻辑针对 CCF 目录 PDF 的特定排版格式进行了专门适配,脚本会尽可能保留跨页的上下文信息(如“专业领域”、“类型”、“等级”等)。
- 针对 PDF 中可识别的特殊样式格式,脚本会尝试自动提取并标记为“升级”、“新增”、“删除”等备注状态。
- 注意:基于 PDF 的自动化解析本质上属于启发式处理。因此,每次 CCF 目录更新发布后,强烈建议进行人工抽样校验,以确保数据提取的准确性。
- 本项目生成的数据完全基于对官方 PDF 文件的自动解析与规则清洗,可能会存在错行、错列、字段缺失、空格异常或链接对应错误等解析偏差。
- 本项目提供的数据结果仅供数据分析、信息整理与辅助校对参考,不应直接视为官方发布版本。
- 若需将数据用于正式引用、公开发布或进一步的系统级集成,请务必与 CCF 官方发布的原始 PDF 目录进行逐项核对。一切以官方发布的内容为准。
- 支持对导出结果进行自动化的字段校验
- 支持与历史版本 CCF 目录的差异化对比分析
- 接入 DBLP / WikiCFP 等外部开放接口以丰富补充信息
- 增加 XLSX 原生格式导出支持,提供更好的 Excel 使用体验