ccf-catalog-analysis

本项目旨在从中国计算机学会（CCF）推荐国际学术会议和期刊目录第七版（2026 年 3 月更新）的官方 PDF 文件中提取会议与期刊数据，并将其转化为结构化的数据格式导出。

本项目目前专注于以下核心功能：

解析 CCF 官方发布的 PDF 目录文件
精准提取目录中的结构化条目信息
导出适用于多种分析场景的基础数据文件
为 CSV、JSON、Excel 等轻量级数据分析场景提供支持

现阶段，本项目暂不涉及会议截稿日期（Deadline，常简称为 DDL）的追踪与收集，亦不引入复杂的数据库建模。项目的核心产出为扁平化的数据文件，您可以直接将其无缝集成到 Excel、Python 脚本、BI 工具或其它下游数据处理流水线中。

项目范围

数据来源：CCF 推荐国际学术会议和期刊目录第七版（2026 年 3 月更新）
提取目标：会议、期刊的目录条目数据
输出格式：CSV、JSON
适用场景：数据分析、目录版本对比、筛选统计及后续辅助信息补全

项目结构

ccf-catalog-2026-03/
├── data/
│   ├── raw/
│   │   └── 中国计算机学会推荐国际学术会议和期刊目录第七版（2026年3月更新）.pdf
│   └── processed/
│       ├── ccf_catalog_2026_03_full.csv
│       └── ccf_catalog_2026_03_full.json
├── scripts/
│   └── extract_catalog_pdf.py
├── .gitignore
├── requirements.txt
└── README.md

导出字段

提取脚本目前支持输出以下字段：

category：专业领域
type：类型（如：会议 / 期刊）
rank：等级（如：A / B / C 类）
page_id：由页码与序号组合生成的唯一标识符
abbr：会议 / 期刊简称
full_name：会议 / 期刊全称
publisher：出版社 / 主办机构
url：官方网址
notes：备注信息（如：新增、升级、删除等变动记录）

以上字段与原始 PDF 目录行一一对应，非常适合进行后续的数据匹配、清洗、补全和统计分析。

快速开始

创建并激活 Python 虚拟环境
安装依赖包
运行数据提取脚本

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
python scripts/extract_catalog_pdf.py

如需额外生成用于人工复核的对照清单，请添加 --review 参数：

python scripts/extract_catalog_pdf.py --review

输出结果

脚本运行完毕后，提取的数据文件将保存在以下路径：

data/processed/ccf_catalog_2026_03_full.csv
data/processed/ccf_catalog_2026_03_full.json

其中：

CSV 文件：适合直接使用 Excel 导入或打开，便于进行人工审查和常规分析。
JSON 文件：适合程序脚本读取，方便接入后续的数据自动化流水线（Data Pipeline）。

如果使用了 --review 参数，系统还会额外生成以下复核文件：

data/processed/ccf_catalog_2026_03_review.csv
data/processed/ccf_catalog_2026_03_review.json

技术说明

本项目的提取逻辑针对 CCF 目录 PDF 的特定排版格式进行了专门适配，脚本会尽可能保留跨页的上下文信息（如“专业领域”、“类型”、“等级”等）。
针对 PDF 中可识别的特殊样式格式，脚本会尝试自动提取并标记为“升级”、“新增”、“删除”等备注状态。
注意：基于 PDF 的自动化解析本质上属于启发式处理。因此，每次 CCF 目录更新发布后，强烈建议进行人工抽样校验，以确保数据提取的准确性。

免责声明

本项目生成的数据完全基于对官方 PDF 文件的自动解析与规则清洗，可能会存在错行、错列、字段缺失、空格异常或链接对应错误等解析偏差。
本项目提供的数据结果仅供数据分析、信息整理与辅助校对参考，不应直接视为官方发布版本。
若需将数据用于正式引用、公开发布或进一步的系统级集成，请务必与 CCF 官方发布的原始 PDF 目录进行逐项核对。一切以官方发布的内容为准。

后续演进规划

支持对导出结果进行自动化的字段校验
支持与历史版本 CCF 目录的差异化对比分析
接入 DBLP / WikiCFP 等外部开放接口以丰富补充信息
增加 XLSX 原生格式导出支持，提供更好的 Excel 使用体验

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ccf-catalog-analysis

项目范围

项目结构

导出字段

快速开始

输出结果

技术说明

免责声明

后续演进规划

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data		data
scripts		scripts
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

ccf-catalog-analysis

项目范围

项目结构

导出字段

快速开始

输出结果

技术说明

免责声明

后续演进规划

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages