Skip to content

Commit d0ed731

Browse files
authored
Merge pull request #2199 from opendatalab/release-1.3.2
Release 1.3.2
2 parents b60166a + d6c5700 commit d0ed731

File tree

16 files changed

+679
-222
lines changed

16 files changed

+679
-222
lines changed

README.md

+154-54
Large diffs are not rendered by default.

README_zh-CN.md

+143-55
Original file line numberDiff line numberDiff line change
@@ -47,10 +47,14 @@
4747
</div>
4848

4949
# 更新记录
50-
50+
- 2025/04/12 1.3.2 发布
51+
- 修复了windows系统下,在python3.13环境安装时一些依赖包版本不兼容的问题
52+
- 优化批量推理时的内存占用
53+
- 优化旋转90度表格的解析效果
54+
- 优化财报样本中超大表格的解析效果
55+
- 修复了在未指定OCR语言时,英文文本区域偶尔出现的单词黏连问题(需要更新模型)
5156
- 2025/04/08 1.3.1 发布,修复了一些兼容问题
5257
- 支持python 3.13
53-
- 解决因`transformers 4.51.0` 导致的报错
5458
- 为部分过时的linux系统(如centos7)做出最后适配,并不再保证后续版本的继续支持,[安装说明](https://github.com/opendatalab/MinerU/issues/1004)
5559
- 2025/04/03 1.3.0 发布,在这个版本我们做出了许多优化和改进:
5660
- 安装与兼容性优化
@@ -69,59 +73,143 @@
6973
- 易用性优化
7074
- 通过使用`paddleocr2torch`,完全替代`paddle`框架以及`paddleocr`在项目中的使用,解决了`paddle``torch`的冲突问题,和由于`paddle`框架导致的线程不安全问题
7175
- 解析过程增加实时进度条显示,精准把握解析进度,让等待不再痛苦
72-
- 2025/03/03 1.2.1 发布,修复了一些问题:
73-
- 修复在字母与数字的全角转半角操作时对标点符号的影响
74-
- 修复在某些情况下caption的匹配不准确问题
75-
- 修复在某些情况下的公式span丢失问题
76-
- 2025/02/24 1.2.0 发布,这个版本我们修复了一些问题,提升了解析的效率与精度:
77-
- 性能优化
78-
- auto模式下pdf文档的分类速度提升
79-
- 解析优化
80-
- 优化对包含水印文档的解析逻辑,显著提升包含水印文档的解析效果
81-
- 改进了单页内多个图像/表格与caption的匹配逻辑,提升了复杂布局下图文匹配的准确性
82-
- 问题修复
83-
- 修复在某些情况下图片/表格span被填充进textblock导致的异常
84-
- 修复在某些情况下标题block为空的问题
85-
- 2025/01/22 1.1.0 发布,在这个版本我们重点提升了解析的精度与效率:
86-
- 模型能力升级(需重新执行[模型下载流程](docs/how_to_download_models_zh_cn.md)以获得模型文件的增量更新)
87-
- 布局识别模型升级到最新的`doclayout_yolo(2501)`模型,提升了layout识别精度
88-
- 公式解析模型升级到最新的`unimernet(2501)`模型,提升了公式识别精度
89-
- 性能优化
90-
- 在配置满足一定条件(显存16GB+)的设备上,通过优化资源占用和重构处理流水线,整体解析速度提升50%以上
91-
- 解析效果优化
92-
- 在线demo([mineru.net](https://mineru.net/OpenSourceTools/Extractor)/[huggingface](https://huggingface.co/spaces/opendatalab/MinerU)/[modelscope](https://www.modelscope.cn/studios/OpenDataLab/MinerU))上新增标题分级功能(测试版本,默认开启),支持对标题进行分级,提升文档结构化程度
93-
- 2025/01/10 1.0.1 发布,这是我们的第一个正式版本,在这个版本中,我们通过大量重构带来了全新的API接口和更广泛的兼容性,以及全新的自动语言识别功能:
94-
- 全新API接口
95-
- 对于数据侧API,我们引入了Dataset类,旨在提供一个强大而灵活的数据处理框架。该框架当前支持包括图像(.jpg及.png)、PDF、Word(.doc及.docx)、以及PowerPoint(.ppt及.pptx)在内的多种文档格式,确保了从简单到复杂的数据处理任务都能得到有效的支持。
96-
- 针对用户侧API,我们将MinerU的处理流程精心设计为一系列可组合的Stage阶段。每个Stage代表了一个特定的处理步骤,用户可以根据自身需求自由地定义新的Stage,并通过创造性地组合这些阶段来定制专属的数据处理流程。
97-
- 更广泛的兼容性适配
98-
- 通过优化依赖环境和配置项,确保在ARM架构的Linux系统上能够稳定高效运行。
99-
- 深度适配华为昇腾NPU加速,积极响应信创要求,提供自主可控的高性能计算能力,助力人工智能应用平台的国产化应用与发展。[NPU加速教程](docs/README_Ascend_NPU_Acceleration_zh_CN.md)
100-
- 自动语言识别
101-
- 通过引入全新的语言识别模型, 在文档解析中将`lang`配置为`auto`,即可自动选择合适的OCR语言模型,提升扫描类文档解析的准确性。
102-
- 2024/11/22 0.10.0发布,通过引入混合OCR文本提取能力,
103-
- 在公式密集、span区域不规范、部分文本使用图像表现等复杂文本分布场景下获得解析效果的显著提升
104-
- 同时具备文本模式内容提取准确、速度更快与OCR模式span/line区域识别更准的双重优势
105-
- 2024/11/15 0.9.3发布,为表格识别功能接入了[RapidTable](https://github.com/RapidAI/RapidTable),单表解析速度提升10倍以上,准确率更高,显存占用更低
106-
- 2024/11/06 0.9.2发布,为表格识别功能接入了[StructTable-InternVL2-1B](https://huggingface.co/U4R/StructTable-InternVL2-1B)模型
107-
- 2024/10/31 0.9.0发布,这是我们进行了大量代码重构的全新版本,解决了众多问题,提升了性能,降低了硬件需求,并提供了更丰富的易用性:
108-
- 重构排序模块代码,使用 [layoutreader](https://github.com/ppaanngggg/layoutreader) 进行阅读顺序排序,确保在各种排版下都能实现极高准确率
109-
- 重构段落拼接模块,在跨栏、跨页、跨图、跨表情况下均能实现良好的段落拼接效果
110-
- 重构列表和目录识别功能,极大提升列表块和目录块识别的准确率及对应文本段落的解析效果
111-
- 重构图、表与描述性文本的匹配逻辑,大幅提升 caption 和 footnote 与图表的匹配准确率,并将描述性文本的丢失率降至接近0
112-
- 增加 OCR 的多语言支持,支持 84 种语言的检测与识别,语言支持列表详见 [OCR 语言支持列表](https://paddlepaddle.github.io/PaddleOCR/latest/ppocr/blog/multi_languages.html#5)
113-
- 增加显存回收逻辑及其他显存优化措施,大幅降低显存使用需求。开启除表格加速外的全部加速功能(layout/公式/OCR)的显存需求从16GB降至8GB,开启全部加速功能的显存需求从24GB降至10GB
114-
- 优化配置文件的功能开关,增加独立的公式检测开关,无需公式检测时可大幅提升速度和解析效果
115-
- 集成 [PDF-Extract-Kit 1.0](https://github.com/opendatalab/PDF-Extract-Kit)
116-
- 加入自研的 `doclayout_yolo` 模型,在相近解析效果情况下比原方案提速10倍以上,可通过配置文件与 `layoutlmv3` 自由切换
117-
- 公式解析升级至 `unimernet 0.2.1`,在提升公式解析准确率的同时,大幅降低显存需求
118-
-`PDF-Extract-Kit 1.0` 更换仓库,需要重新下载模型,步骤详见 [如何下载模型](docs/how_to_download_models_zh_cn.md)
119-
- 2024/09/27 0.8.1发布,修复了一些bug,同时提供了[在线demo](https://opendatalab.com/OpenSourceTools/Extractor/PDF/)[本地化部署版本](projects/web_demo/README_zh-CN.md)[前端界面](projects/web/README_zh-CN.md)
120-
- 2024/09/09 0.8.0发布,支持Dockerfile快速部署,同时上线了huggingface、modelscope demo
121-
- 2024/08/30 0.7.1发布,集成了paddle tablemaster表格识别功能
122-
- 2024/08/09 0.7.0b1发布,简化安装步骤提升易用性,加入表格识别功能
123-
- 2024/08/01 0.6.2b1发布,优化了依赖冲突问题和安装文档
124-
- 2024/07/05 首次开源
76+
<details>
77+
<summary>2025/03/03 1.2.1 发布,修复了一些问题</summary>
78+
<ul>
79+
<li>修复在字母与数字的全角转半角操作时对标点符号的影响</li>
80+
<li>修复在某些情况下caption的匹配不准确问题</li>
81+
<li>修复在某些情况下的公式span丢失问题</li>
82+
</ul>
83+
</details>
84+
85+
<details>
86+
<summary>2025/02/24 1.2.0 发布,这个版本我们修复了一些问题,提升了解析的效率与精度:</summary>
87+
<ul>
88+
<li>性能优化
89+
<ul>
90+
<li>auto模式下pdf文档的分类速度提升</li>
91+
</ul>
92+
</li>
93+
<li>解析优化
94+
<ul>
95+
<li>优化对包含水印文档的解析逻辑,显著提升包含水印文档的解析效果</li>
96+
<li>改进了单页内多个图像/表格与caption的匹配逻辑,提升了复杂布局下图文匹配的准确性</li>
97+
</ul>
98+
</li>
99+
<li>问题修复
100+
<ul>
101+
<li>修复在某些情况下图片/表格span被填充进textblock导致的异常</li>
102+
<li>修复在某些情况下标题block为空的问题</li>
103+
</ul>
104+
</li>
105+
</ul>
106+
</details>
107+
108+
<details>
109+
<summary>2025/01/22 1.1.0 发布,在这个版本我们重点提升了解析的精度与效率:</summary>
110+
<ul>
111+
<li>模型能力升级(需重新执行 <a href="https://github.com/opendatalab/MinerU/docs/how_to_download_models_zh_cn.md">模型下载流程</a> 以获得模型文件的增量更新)
112+
<ul>
113+
<li>布局识别模型升级到最新的 `doclayout_yolo(2501)` 模型,提升了layout识别精度</li>
114+
<li>公式解析模型升级到最新的 `unimernet(2501)` 模型,提升了公式识别精度</li>
115+
</ul>
116+
</li>
117+
<li>性能优化
118+
<ul>
119+
<li>在配置满足一定条件(显存16GB+)的设备上,通过优化资源占用和重构处理流水线,整体解析速度提升50%以上</li>
120+
</ul>
121+
</li>
122+
<li>解析效果优化
123+
<ul>
124+
<li>在线demo(<a href="https://mineru.net/OpenSourceTools/Extractor">mineru.net</a> / <a href="https://huggingface.co/spaces/opendatalab/MinerU">huggingface</a> / <a href="https://www.modelscope.cn/studios/OpenDataLab/MinerU">modelscope</a>)上新增标题分级功能(测试版本,默认开启),支持对标题进行分级,提升文档结构化程度</li>
125+
</ul>
126+
</li>
127+
</ul>
128+
</details>
129+
130+
<details>
131+
<summary>2025/01/10 1.0.1 发布,这是我们的第一个正式版本,在这个版本中,我们通过大量重构带来了全新的API接口和更广泛的兼容性,以及全新的自动语言识别功能:</summary>
132+
<ul>
133+
<li>全新API接口
134+
<ul>
135+
<li>对于数据侧API,我们引入了Dataset类,旨在提供一个强大而灵活的数据处理框架。该框架当前支持包括图像(.jpg及.png)、PDF、Word(.doc及.docx)、以及PowerPoint(.ppt及.pptx)在内的多种文档格式,确保了从简单到复杂的数据处理任务都能得到有效的支持。</li>
136+
<li>针对用户侧API,我们将MinerU的处理流程精心设计为一系列可组合的Stage阶段。每个Stage代表了一个特定的处理步骤,用户可以根据自身需求自由地定义新的Stage,并通过创造性地组合这些阶段来定制专属的数据处理流程。</li>
137+
</ul>
138+
</li>
139+
<li>更广泛的兼容性适配
140+
<ul>
141+
<li>通过优化依赖环境和配置项,确保在ARM架构的Linux系统上能够稳定高效运行。</li>
142+
<li>深度适配华为昇腾NPU加速,积极响应信创要求,提供自主可控的高性能计算能力,助力人工智能应用平台的国产化应用与发展。 <a href="https://github.com/opendatalab/MinerU/docs/README_Ascend_NPU_Acceleration_zh_CN.md">NPU加速教程</a></li>
143+
</ul>
144+
</li>
145+
<li>自动语言识别
146+
<ul>
147+
<li>通过引入全新的语言识别模型, 在文档解析中将 `lang` 配置为 `auto`,即可自动选择合适的OCR语言模型,提升扫描类文档解析的准确性。</li>
148+
</ul>
149+
</li>
150+
</ul>
151+
</details>
152+
153+
<details>
154+
<summary>2024/11/22 0.10.0发布,通过引入混合OCR文本提取能力,</summary>
155+
<ul>
156+
<li>在公式密集、span区域不规范、部分文本使用图像表现等复杂文本分布场景下获得解析效果的显著提升</li>
157+
<li>同时具备文本模式内容提取准确、速度更快与OCR模式span/line区域识别更准的双重优势</li>
158+
</ul>
159+
</details>
160+
161+
<details>
162+
<summary>2024/11/15 0.9.3发布,为表格识别功能接入了<a href="https://github.com/RapidAI/RapidTable">RapidTable</a>,单表解析速度提升10倍以上,准确率更高,显存占用更低</summary>
163+
</details>
164+
165+
<details>
166+
<summary>2024/11/06 0.9.2发布,为表格识别功能接入了<a href="https://huggingface.co/U4R/StructTable-InternVL2-1B">StructTable-InternVL2-1B</a>模型</summary>
167+
</details>
168+
169+
<details>
170+
<summary>2024/10/31 0.9.0发布,这是我们进行了大量代码重构的全新版本,解决了众多问题,提升了性能,降低了硬件需求,并提供了更丰富的易用性:</summary>
171+
<ul>
172+
<li>重构排序模块代码,使用 <a href="https://github.com/ppaanngggg/layoutreader">layoutreader</a> 进行阅读顺序排序,确保在各种排版下都能实现极高准确率</li>
173+
<li>重构段落拼接模块,在跨栏、跨页、跨图、跨表情况下均能实现良好的段落拼接效果</li>
174+
<li>重构列表和目录识别功能,极大提升列表块和目录块识别的准确率及对应文本段落的解析效果</li>
175+
<li>重构图、表与描述性文本的匹配逻辑,大幅提升 caption 和 footnote 与图表的匹配准确率,并将描述性文本的丢失率降至接近0</li>
176+
<li>增加 OCR 的多语言支持,支持 84 种语言的检测与识别,语言支持列表详见 <a href="https://paddlepaddle.github.io/PaddleOCR/latest/ppocr/blog/multi_languages.html#5">OCR 语言支持列表</a></li>
177+
<li>增加显存回收逻辑及其他显存优化措施,大幅降低显存使用需求。开启除表格加速外的全部加速功能(layout/公式/OCR)的显存需求从16GB降至8GB,开启全部加速功能的显存需求从24GB降至10GB</li>
178+
<li>优化配置文件的功能开关,增加独立的公式检测开关,无需公式检测时可大幅提升速度和解析效果</li>
179+
<li>集成 <a href="https://github.com/opendatalab/PDF-Extract-Kit">PDF-Extract-Kit 1.0</a>
180+
<ul>
181+
<li>加入自研的 `doclayout_yolo` 模型,在相近解析效果情况下比原方案提速10倍以上,可通过配置文件与 `layoutlmv3` 自由切换</li>
182+
<li>公式解析升级至 `unimernet 0.2.1`,在提升公式解析准确率的同时,大幅降低显存需求</li>
183+
<li>因 `PDF-Extract-Kit 1.0` 更换仓库,需要重新下载模型,步骤详见 <a href="https://github.com/opendatalab/MinerU/docs/how_to_download_models_zh_cn.md">如何下载模型</a></li>
184+
</ul>
185+
</li>
186+
</ul>
187+
</details>
188+
189+
<details>
190+
<summary>2024/09/27 0.8.1发布,修复了一些bug,同时提供了<a href="https://opendatalab.com/OpenSourceTools/Extractor/PDF/">在线demo</a>的<a href="https://github.com/opendatalab/MinerU/projects/web_demo/README_zh-CN.md">本地化部署版本</a>和<a href="https://github.com/opendatalab/MinerU/projects/web/README_zh-CN.md">前端界面</a></summary>
191+
</details>
192+
193+
<details>
194+
<summary>2024/09/09 0.8.0发布,支持Dockerfile快速部署,同时上线了huggingface、modelscope demo</summary>
195+
</details>
196+
197+
<details>
198+
<summary>2024/08/30 0.7.1发布,集成了paddle tablemaster表格识别功能</summary>
199+
</details>
200+
201+
<details>
202+
<summary>2024/08/09 0.7.0b1发布,简化安装步骤提升易用性,加入表格识别功能</summary>
203+
</details>
204+
205+
<details>
206+
<summary>2024/08/01 0.6.2b1发布,优化了依赖冲突问题和安装文档</summary>
207+
</details>
208+
209+
<details>
210+
<summary>2024/07/05 首次开源</summary>
211+
</details>
212+
125213

126214
<!-- TABLE OF CONTENT -->
127215

docs/README_Windows_CUDA_Acceleration_en_US.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -63,7 +63,7 @@ If your graphics card has at least 6GB of VRAM, follow these steps to test CUDA-
6363
1. **Overwrite the installation of torch and torchvision** supporting CUDA.(Please select the appropriate index-url based on your CUDA version. For more details, refer to the [PyTorch official website](https://pytorch.org/get-started/locally/).)
6464
6565
```
66-
pip install --force-reinstall torch torchvision --index-url https://download.pytorch.org/whl/cu124
66+
pip install --force-reinstall torch torchvision "numpy<=2.1.1" --index-url https://download.pytorch.org/whl/cu124
6767
```
6868
6969
2. **Modify the value of `"device-mode"`** in the `magic-pdf.json` configuration file located in your user directory.

docs/README_Windows_CUDA_Acceleration_zh_CN.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -64,7 +64,7 @@ pip install -U magic-pdf[full] -i https://mirrors.aliyun.com/pypi/simple
6464
**1.覆盖安装支持cuda的torch和torchvision**(请根据cuda版本选择合适的index-url,具体可参考[torch官网](https://pytorch.org/get-started/locally/))
6565
6666
```bash
67-
pip install --force-reinstall torch torchvision --index-url https://download.pytorch.org/whl/cu124
67+
pip install --force-reinstall torch torchvision "numpy<=2.1.1" --index-url https://download.pytorch.org/whl/cu124
6868
```
6969
7070
**2.修改【用户目录】中配置文件magic-pdf.json中"device-mode"的值**

0 commit comments

Comments
 (0)