AutoPDFCluster

1. 项目简介

利用大语言模型(LLM)的强大能力,为中文学术论文提供智能化的命名和分类解决方案。

主要特性:

流程自动化: 批量处理大量论文,节省时间和人力
命名规范化: 统一论文命名格式,提高后续阅读效率
智能语义分类: 结合DeepSeek大模型，对文献根据主题自动分类,便于后续阅读和管理

2. 实现思路

提取文件名：读取指定文件目录下的PDF文件名
文件名规范化：利用LLM对PDF文件名进行规范化处理
文件名预处理：使用KMeans对PDF文件名进行初步的聚类处理
LLM主题分类：借助LLM参考聚类结果进行主题分类
本地文件整理：根据LLM的主题分类结果对本地的PDF文件进行整理

3. 使用方法

修改config.py中的PDF文件目录（注意使用绝对路径，如D:/PDF）

# 主要涉及如下几个路径的修改：
# 修改：PDF文件存放的原始文件夹
# 例如：D:\PDF
SOURCE_PDF_FOLDER = r"[添加你的PDF原始文件夹绝对路径]"

# 修改：命名规范化后的 PDF 文件夹
# 例如：D:\PDF\formated_pdf
FORMATED_PDF_NAME_FOLDER = r"[添加规范化处理后的PDF文件夹绝对路径]"

# 修改PDF文件主题分类文件夹
# 例如：D:\PDF\classification_pdf
PDF_CLASSIFICATION_DIR = r"[添加PDF分类文件夹绝对路径]"

运行main.py文件
如果对聚类结果不满意，可以运行main.py文件中的scan_and_move_pdfs_back函数，可将PDF文件移回原格式化目录FORMATED_PDF_NAME_FOLDER中

注意：在使用scan_and_move_pdfs_back时，需要将其他函数注释掉

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
README.md		README.md
add_prefix_to_pdf.py		add_prefix_to_pdf.py
config.py		config.py
custom_exception.py		custom_exception.py
fix_pdf_title_with_llm.py		fix_pdf_title_with_llm.py
load_pdf.py		load_pdf.py
main.py		main.py
pdf_classify.py		pdf_classify.py
pdf_name_normalize.py		pdf_name_normalize.py
preprocess_title_with_kmeans.py		preprocess_title_with_kmeans.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

AutoPDFCluster

1. 项目简介

2. 实现思路

3. 使用方法

About

Uh oh!

Releases

Languages

Harryleft/auto-pdf-cluster

Folders and files

Latest commit

History

Repository files navigation

AutoPDFCluster

1. 项目简介

2. 实现思路

3. 使用方法

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Languages