本项目是一个自动化数据处理工具,专注于对 Excel 表格数据进行解析、清洗和分类处理,主要应用于电信领域信息采集场景。通过自动化流程实现数据标准化和结构化输出。
- 原始数据解析(parser.py)
- 数据清洗优化(cleaner.py)
- AI辅助数据补全(preprocessor.py)
- 支持复杂编号体系识别(如:
G6/G6-5/G6-5-1格式) - 智能范围匹配与去重
- 自动化 OpenAI 内容生成
- 多层级数据映射与校验
├── config/ # 配置文件
│ └── settings.py # 路径配置
├── src/ # 核心处理模块
│ ├── parser.py # 数据解析器
│ ├── cleaner.py # 数据清洗器
│ └── preprocessor.py # AI预处理器
├── utils/ # 工具库
│ ├── file_utils.py # 文件操作工具
│ ├── re_utils.py # 正则处理工具
│ └── text_utils.py # 文本处理常量
├── main.py # 主程序入口
└── README.md # 项目文档请先安装项目所需依赖:
pip install -r requirements.txt注意事项:
- 需要 OpenAI 兼容的 API 服务
- Excel 文件需符合特定格式要求(含
Sheet1/Sheet2)
python main.py [输入文件路径]- 读取原始数据(
origin_data.xlsx) - 生成临时处理文件(
tmp.xlsx)
- 过滤无效范围
- 标准化编号格式
- 添加序号列
- 最终文件(
final_data.xlsx) - AI生成文件(
lm_post.xlsx)
在 config/settings.py 中可配置以下路径:
ORI_FILE_PATH = 'data/raw/origin_data.xlsx' # 原始数据路径
TMP_FILE_PATH = 'data/processed/tmp.xlsx' # 临时文件路径
FINAL_FILE_PATH = 'data/processed/final_data.xlsx' # 最终输出路径
LM_POST_PATH = 'data/processed/lm_post.xlsx' # AI处理路径- 确保 Excel 文件格式符合要求
- 首次运行建议先执行
parser.py单独测试 - AI处理模块需要网络连接和有效 API 权限
- 大数据量处理时注意内存使用