Skip to content

0xca1x/ccf-catalog-analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ccf-catalog-analysis

本项目旨在从中国计算机学会(CCF)推荐国际学术会议和期刊目录第七版(2026 年 3 月更新)的官方 PDF 文件中提取会议与期刊数据,并将其转化为结构化的数据格式导出。

本项目目前专注于以下核心功能:

  • 解析 CCF 官方发布的 PDF 目录文件
  • 精准提取目录中的结构化条目信息
  • 导出适用于多种分析场景的基础数据文件
  • 为 CSV、JSON、Excel 等轻量级数据分析场景提供支持

现阶段,本项目暂不涉及会议截稿日期(Deadline,常简称为 DDL)的追踪与收集,亦不引入复杂的数据库建模。项目的核心产出为扁平化的数据文件,您可以直接将其无缝集成到 Excel、Python 脚本、BI 工具或其它下游数据处理流水线中。

项目范围

  • 数据来源:CCF 推荐国际学术会议和期刊目录第七版(2026 年 3 月更新)
  • 提取目标:会议、期刊的目录条目数据
  • 输出格式:CSV、JSON
  • 适用场景:数据分析、目录版本对比、筛选统计及后续辅助信息补全

项目结构

ccf-catalog-2026-03/
├── data/
│   ├── raw/
│   │   └── 中国计算机学会推荐国际学术会议和期刊目录第七版(2026年3月更新).pdf
│   └── processed/
│       ├── ccf_catalog_2026_03_full.csv
│       └── ccf_catalog_2026_03_full.json
├── scripts/
│   └── extract_catalog_pdf.py
├── .gitignore
├── requirements.txt
└── README.md

导出字段

提取脚本目前支持输出以下字段:

  • category:专业领域
  • type:类型(如:会议 / 期刊)
  • rank:等级(如:A / B / C 类)
  • page_id:由页码与序号组合生成的唯一标识符
  • abbr:会议 / 期刊简称
  • full_name:会议 / 期刊全称
  • publisher:出版社 / 主办机构
  • url:官方网址
  • notes:备注信息(如:新增、升级、删除等变动记录)

以上字段与原始 PDF 目录行一一对应,非常适合进行后续的数据匹配、清洗、补全和统计分析。

快速开始

  1. 创建并激活 Python 虚拟环境
  2. 安装依赖包
  3. 运行数据提取脚本
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
python scripts/extract_catalog_pdf.py

如需额外生成用于人工复核的对照清单,请添加 --review 参数:

python scripts/extract_catalog_pdf.py --review

输出结果

脚本运行完毕后,提取的数据文件将保存在以下路径:

  • data/processed/ccf_catalog_2026_03_full.csv
  • data/processed/ccf_catalog_2026_03_full.json

其中:

  • CSV 文件:适合直接使用 Excel 导入或打开,便于进行人工审查和常规分析。
  • JSON 文件:适合程序脚本读取,方便接入后续的数据自动化流水线(Data Pipeline)。

如果使用了 --review 参数,系统还会额外生成以下复核文件:

  • data/processed/ccf_catalog_2026_03_review.csv
  • data/processed/ccf_catalog_2026_03_review.json

技术说明

  • 本项目的提取逻辑针对 CCF 目录 PDF 的特定排版格式进行了专门适配,脚本会尽可能保留跨页的上下文信息(如“专业领域”、“类型”、“等级”等)。
  • 针对 PDF 中可识别的特殊样式格式,脚本会尝试自动提取并标记为“升级”、“新增”、“删除”等备注状态。
  • 注意:基于 PDF 的自动化解析本质上属于启发式处理。因此,每次 CCF 目录更新发布后,强烈建议进行人工抽样校验,以确保数据提取的准确性。

免责声明

  • 本项目生成的数据完全基于对官方 PDF 文件的自动解析与规则清洗,可能会存在错行、错列、字段缺失、空格异常或链接对应错误等解析偏差。
  • 本项目提供的数据结果仅供数据分析、信息整理与辅助校对参考,不应直接视为官方发布版本
  • 若需将数据用于正式引用、公开发布或进一步的系统级集成,请务必与 CCF 官方发布的原始 PDF 目录进行逐项核对。一切以官方发布的内容为准。

后续演进规划

  • 支持对导出结果进行自动化的字段校验
  • 支持与历史版本 CCF 目录的差异化对比分析
  • 接入 DBLP / WikiCFP 等外部开放接口以丰富补充信息
  • 增加 XLSX 原生格式导出支持,提供更好的 Excel 使用体验

About

Structured extraction and analysis of the CCF Recommended Academic Conference/Journal Catalog (7th Edition, 2026)

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages