Skip to content

maolonchen/swsj_excel

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ClassifyProject 数据处理工具

项目简介

本项目是一个自动化数据处理工具,专注于对 Excel 表格数据进行解析、清洗和分类处理,主要应用于电信领域信息采集场景。通过自动化流程实现数据标准化和结构化输出。


核心功能

多阶段处理流程

  • 原始数据解析(parser.py)
  • 数据清洗优化(cleaner.py)
  • AI辅助数据补全(preprocessor.py)

特色能力

  • 支持复杂编号体系识别(如:G6/G6-5/G6-5-1 格式)
  • 智能范围匹配与去重
  • 自动化 OpenAI 内容生成
  • 多层级数据映射与校验

目录结构

├── config/                  # 配置文件
│   └── settings.py          # 路径配置
├── src/                     # 核心处理模块
│   ├── parser.py            # 数据解析器
│   ├── cleaner.py           # 数据清洗器
│   └── preprocessor.py      # AI预处理器
├── utils/                   # 工具库
│   ├── file_utils.py        # 文件操作工具
│   ├── re_utils.py          # 正则处理工具
│   └── text_utils.py        # 文本处理常量
├── main.py                  # 主程序入口
└── README.md                # 项目文档

环境依赖

请先安装项目所需依赖:

pip install -r requirements.txt

注意事项:

  • 需要 OpenAI 兼容的 API 服务
  • Excel 文件需符合特定格式要求(含 Sheet1 / Sheet2

使用指南

基础用法

python main.py [输入文件路径]

处理流程

1. 解析阶段

  • 读取原始数据(origin_data.xlsx
  • 生成临时处理文件(tmp.xlsx

2. 清洗阶段

  • 过滤无效范围
  • 标准化编号格式
  • 添加序号列

3. 输出结果

  • 最终文件(final_data.xlsx
  • AI生成文件(lm_post.xlsx

⚙️ 配置说明

config/settings.py 中可配置以下路径:

ORI_FILE_PATH = 'data/raw/origin_data.xlsx'    # 原始数据路径
TMP_FILE_PATH = 'data/processed/tmp.xlsx'      # 临时文件路径
FINAL_FILE_PATH = 'data/processed/final_data.xlsx' # 最终输出路径
LM_POST_PATH = 'data/processed/lm_post.xlsx'    # AI处理路径

注意事项

  • 确保 Excel 文件格式符合要求
  • 首次运行建议先执行 parser.py 单独测试
  • AI处理模块需要网络连接和有效 API 权限
  • 大数据量处理时注意内存使用

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages