PaddleOCR 自發布以來,憑藉其學術前沿的演算法與產業落地實踐,深受產學研各界的喜愛,並廣泛應用於眾多知名開源專案,如 Umi-OCR、OmniParser、MinerU、RAGFlow 等,已成為廣大開發者心中開源 OCR 領域的首選工具。2025 年 5 月 20 日,飛槳團隊發布 PaddleOCR 3.0,全面適配飛槳框架 3.0 正式版,進一步提升文字辨識精度,支援多種文字類型辨識和手寫體辨識,滿足大型模型應用對複雜文件高精度解析的旺盛需求。結合ERNIE 4.5,顯著提升了關鍵資訊擷取的精度,並新增對崑崙芯、昇騰等國產硬體的支援。完整使用說明請參閱 PaddleOCR 3.0 文檔。
PaddleOCR 3.0 新增三大特色功能:
- 全場景文字辨識模型 PP-OCRv5:單一模型支援五種文字類型和複雜手寫體辨識;整體辨識精度相較前一代提升 13 個百分點。線上體驗
- 通用文件解析方案 PP-StructureV3:支援多場景、多版式的 PDF 高精度解析,在公開評測集中領先眾多開源與閉源方案。線上體驗
- 智慧文件理解方案 PP-ChatOCRv4:原生支援ERNIE 4.5,精度相較前一代提升 15 個百分點。線上體驗
除了提供優秀的模型庫,PaddleOCR 3.0 還提供好學易用的工具,涵蓋模型訓練、推論及服務化部署,方便開發者快速將 AI 應用落地。
特別注意:PaddleOCR 3.x 引入了多項重大的介面變更。基於 PaddleOCR 2.x 撰寫的舊程式碼很可能與 PaddleOCR 3.x 不相容。請確保您閱讀的文件與您實際使用的 PaddleOCR 版本相符。本文件 說明了升級的原因以及從 PaddleOCR 2.x 到 3.x 的主要變更。
🔥🔥2025.08.21: 發布 PaddleOCR 3.2.0,內容包括:
-
重要模型新增:
- 新增 PP-OCRv5 英文、泰文、希臘文識別模型的訓練、推理、部署。其中 PP-OCRv5 英文模型在英文場景下較 PP-OCRv5 主模型提升 11%,泰文識別模型準確率達 82.68%,希臘文識別模型準確率達 89.28%。
-
部署能力升級:
- 全面支援飛槳(PaddlePaddle)框架 3.1.0 與 3.1.1 版本。
- 全面升級 PP-OCRv5 C++ 本地部署方案,支援 Linux、Windows,功能及精度與 Python 方案保持一致。
- 高效能推理支援 CUDA 12,可使用 Paddle Inference、ONNX Runtime 後端進行推理。
- 高穩定性服務化部署方案全面開源,支援用戶根據需求自訂 Docker 映像檔與 SDK。
- 高穩定性服務化部署方案支援通過手動構造 HTTP 請求的方式調用,允許客戶端程式可用任意程式語言編寫。
-
Benchmark 支援:
- 所有產線全面支援細粒度 benchmark,能測量產線端到端推理時間及逐層、逐模組耗時,用於協助產線效能分析。可以參考文件來進行效能測試。
- 文件中補充各產線常用配置於主流硬體上的關鍵指標,包括推理耗時、記憶體佔用等,為用戶部署提供參考。
-
Bug 修復:
- 修復模型訓練時訓練日誌無法儲存的問題。
- 對公式模型的資料增強部分進行版本相容性升級,以適應新版本 albumentations 依賴,並修復多進程使用 tokenizers 套件時出現的死鎖警告。
- 修復 PP-StructureV3 配置檔案中
use_chart_parsing等開關行為與其他產線不一致的問題。
-
其他升級:
- 區分必要依賴與可選依賴,使用基礎文字識別功能時僅需安裝少量核心依賴;如需文檔解析、資訊抽取等功能,使用者可按需安裝額外依賴。
- 支援 Windows 用戶使用 NVIDIA 50 系顯示卡,可依照安裝文件安裝對應版本的 Paddle 框架。
- PP-OCR 系列模型支援返回單字座標。
- 模型新增 AIStudio、ModelScope 等下載來源,可指定相關來源下載對應模型。
- 支援圖表轉表單一模組(PP-Chart2Table)推理能力。
- 優化部分使用文件中的描述,提升易用性。
2025.08.15: 發布 PaddleOCR 3.1.1,內容包括:
-
Bug修復:
- 補充
PP-ChatOCRv4類缺失的save_vector、save_visual_info_list、load_vector、load_visual_info_list方法。 - 補充
PPDocTranslation類的translate方法缺失的glossary和llm_request_interval參數。
- 補充
-
文件優化:
- 補充 MCP 文件中的 demo。
- 補充文件中測試性能指標所使用的飛槳框架與 PaddleOCR 版本。
- 修正文件翻譯產線文件中的錯漏。
-
其他:
- 修改 MCP 伺服器依賴,使用純 Python 函式庫
puremagic取代python-magic,以減少安裝問題。 - 使用 3.1.0 版本 PaddleOCR 重新測試 PP-OCRv5 性能指標,並更新文件。
- 修改 MCP 伺服器依賴,使用純 Python 函式庫
🔥🔥2025.06.29:發布 PaddleOCR 3.1.0,內容包括:
-
主要模型與流程:
- 新增 PP-OCRv5 多語言文字識別模型,支援包括法語、西班牙語、葡萄牙語、俄語、韓語等在內的 37 種語言的文字識別模型訓練與推理。平均準確率提升超過 30%。 詳情
- 升級了 PP-StructureV3 的 PP-Chart2Table 模型,進一步提升圖表轉表格能力。在內部自訂評測集上,指標(RMS-F1)提升了 9.36 個百分點(71.24% -> 80.60%)。
- 新增基於 PP-StructureV3 和 ERNIE 4.5 的文件翻譯流程 PP-DocTranslation,支援 Markdown 格式文件、各種複雜版面 PDF 文件及文件圖片翻譯,結果可儲存為 Markdown 格式文件。詳情
-
新增 MCP server:Details
- 支援 OCR 及 PP-StructureV3 流程。
- 支援三種工作模式:本地 Python 函式庫、AIStudio 社群雲端服務、自主託管服務。
- 支援通過 stdio 調用本地服務,通過 Streamable HTTP 調用遠端服務。
-
文件優化: 優化了部分使用說明文件描述,提升閱讀體驗。
歷史日誌
2025.06.26: PaddleOCR 3.0.3 發布,包含:
- 錯誤修復:修復
enable_mkldnn參數不生效的問題,恢復CPU默認使用MKL-DNN推理的行為。
2025.06.19: PaddleOCR 3.0.2 發布,包含:
-
功能新增:
- 模型預設下載來源從
BOS改為HuggingFace,同時也支援使用者透過更改環境變數PADDLE_PDX_MODEL_SOURCE為BOS,將模型下載來源設定為百度雲端物件儲存 BOS。 - PP-OCRv5、PP-StructureV3、PP-ChatOCRv4 等 pipeline 新增 C++、Java、Go、C#、Node.js、PHP 6 種語言的服務呼叫範例。
- 優化 PP-StructureV3 產線中版面分區排序演算法,對複雜直書版面排序邏輯進行完善,進一步提升了複雜版面排序效果。
- 優化模型選擇邏輯,當指定語言、未指定模型版本時,自動選擇支援該語言的最新版本的模型。
- 為 MKL-DNN 快取大小設定預設上限,防止快取無限增長。同時,支援使用者設定快取容量。
- 更新高效能推論預設設定,支援 Paddle MKL-DNN 加速。優化高效能推論自動設定邏輯,支援更智慧的設定選擇。
- 調整預設裝置取得邏輯,考量環境中安裝的 Paddle 框架對運算裝置的實際支援情況,使程式行為更符合直覺。
- 新增 PP-OCRv5 的 Android 端範例,詳情。
- 模型預設下載來源從
-
錯誤修復:
- 修復 PP-StructureV3 部分 CLI 參數不生效的問題。
- 修復部分情況下
export_paddlex_config_to_yaml無法正常運作的問題。 - 修復 save_path 實際行為與文件描述不符的問題。
- 修復基礎服務化部署在使用 MKL-DNN 時可能出現的多執行緒錯誤。
- 修復 Latex-OCR 模型的影像預處理通道順序錯誤。
- 修復文字辨識模組儲存視覺化影像的通道順序錯誤。
- 修復 PP-StructureV3 中表格視覺化結果通道順序錯誤。
- 修復 PP-StructureV3 產線中極特殊情況下,計算 overlap_ratio 時,變數溢位問題。
-
文件優化:
- 更新文件中對
enable_mkldnn參數的說明,使其更準確地描述程式的實際行為。 - 修復文件中對
lang和ocr_version參數描述的錯誤。 - 補充透過 CLI 匯出產線設定檔案的說明。
- 修復 PP-OCRv5 效能資料表格中的欄位缺失問題。
- 潤飾 PP-StructureV3 在不同設定下的 benchmark 指標。
- 更新文件中對
-
其他:
- 放寬 numpy、pandas 等依賴項的版本限制,恢復對 Python 3.12 的支援。
🔥🔥2025.06.05: PaddleOCR 3.0.1 發布,包含:
- 優化部分模型和模型設定:
- 更新 PP-OCRv5 預設模型設定,偵測和辨識模型均由 mobile 改為 server 模型。為改善多數場景下的預設效果,設定中的參數
limit_side_len由 736 改為 64。 - 新增文字行方向分類模型
PP-LCNet_x1_0_textline_ori,精度達 99.42%。OCR、PP-StructureV3、PP-ChatOCRv4 流程的預設文字行方向分類器已更新為此模型。 - 優化文字行方向分類模型
PP-LCNet_x0_25_textline_ori,精度提升 3.3 個百分點,目前精度為 98.85%。
- 更新 PP-OCRv5 預設模型設定,偵測和辨識模型均由 mobile 改為 server 模型。為改善多數場景下的預設效果,設定中的參數
- 優化及修復 3.0.0 版本的部分問題,詳情
🔥🔥2025.05.20: PaddleOCR 3.0 正式發布,包含:
-
PP-OCRv5: 全場景高精度文字辨識
- 🌐 單一模型支援五種文字類型(簡體中文、繁體中文、中文拼音、英文和日文)。
- ✍️ 支援複雜手寫體辨識:顯著提升對複雜連筆、非標準字跡的辨識效能。
- 🎯 整體辨識精度提升:在多種應用場景達到 SOTA 精度,相較於上一版 PP-OCRv4,辨識精度提升 13 個百分點!
-
PP-StructureV3: 通用文件解析方案
- 🧮 支援多場景 PDF 高精度解析,在 OmniDocBench 基準測試中領先眾多開源與閉源方案。
- 🧠 多項專業功能:印章辨識、圖表轉表格、含嵌套公式/圖片的表格辨識、直書文字解析及複雜表格結構分析等。
-
PP-ChatOCRv4: 智慧文件理解方案
- 🔥 文件影像(PDF/PNG/JPG)關鍵資訊擷取精度相較前一代提升 15 個百分點!
- 💻 原生支援ERNIE 4.5,並相容 PaddleNLP、Ollama、vLLM 等工具部署的大型模型。
- 🤝 整合 PP-DocBee2,支援印刷體、手寫體、印章、表格、圖表等複雜文件元素的資訊擷取與理解。
請參考安裝指南完成 PaddlePaddle 3.0 的安裝,然後安裝 paddleocr。
# 如果你只想使用基本的文字識別功能(返回文字的座標和內容,包括 PP-OCR 系列)
python -m pip install paddleocr
# 如果你想使用所有功能,如文檔解析、文檔理解、文檔翻譯、關鍵資訊提取等
# python -m pip install "paddleocr[all]"自 3.2.0 版本起,除了上述的 all 依賴組合外,PaddleOCR 也支持指定其他依賴組合來安裝部分附加功能。PaddleOCR 提供的所有依賴組合如下表所示:
| 依賴組合名稱 | 對應功能 |
|---|---|
doc-parser |
文檔解析:可以從文檔中抽取表格、公式、印章、圖片等版面元素,包括 PP-StructureV3 等模型 |
ie |
資訊抽取:可以從文檔中抽取姓名、日期、地址、金額等關鍵資訊,包括 PP-ChatOCRv4 等模型 |
trans |
文檔翻譯:可以將文檔翻譯成其他語言,包括 PP-DocTranslation 等模型 |
all |
所有功能 |
# 執行 PP-OCRv5 推論
paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png --use_doc_orientation_classify False --use_doc_unwarping False --use_textline_orientation False
# 執行 PP-StructureV3 推論
paddleocr pp_structurev3 -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png --use_doc_orientation_classify False --use_doc_unwarping False
# 執行 PP-ChatOCRv4 推論前,需先取得千帆 API Key
paddleocr pp_chatocrv4_doc -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png -k 駕駛室准乘人數 --qianfan_api_key your_api_key --use_doc_orientation_classify False --use_doc_unwarping False
# 查看 "paddleocr ocr" 詳細參數
paddleocr ocr --help4.1 PP-OCRv5 範例
from paddleocr import PaddleOCR
# 初始化 PaddleOCR 執行個體
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False)
# 對範例圖片執行 OCR 推論
result = ocr.predict(
input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
# 將結果視覺化並儲存為 JSON
for res in result:
res.print()
res.save_to_img("output")
res.save_to_json("output")4.2 PP-StructureV3 範例
from pathlib import Path
from paddleocr import PPStructureV3
pipeline = PPStructureV3(
use_doc_orientation_classify=False,
use_doc_unwarping=False
)
# 針對圖片
output = pipeline.predict(
input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png",
)
# 將結果視覺化並儲存為 JSON
for res in output:
res.print()
res.save_to_json(save_path="output")
res.save_to_markdown(save_path="output") 4.3 PP-ChatOCRv4 範例
from paddleocr import PPChatOCRv4Doc
chat_bot_config = {
"module_name": "chat_bot",
"model_name": "ernie-3.5-8k",
"base_url": "https://qianfan.baidubce.com/v2",
"api_type": "openai",
"api_key": "api_key", # your api_key
}
retriever_config = {
"module_name": "retriever",
"model_name": "embedding-v1",
"base_url": "https://qianfan.baidubce.com/v2",
"api_type": "qianfan",
"api_key": "api_key", # your api_key
}
pipeline = PPChatOCRv4Doc(
use_doc_orientation_classify=False,
use_doc_unwarping=False
)
visual_predict_res = pipeline.visual_predict(
input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png",
use_common_ocr=True,
use_seal_recognition=True,
use_table_recognition=True,
)
mllm_predict_info = None
use_mllm = False
# 若使用多模態大型模型,需啟動本機 mllm 服務,可參考文件:https://github.com/PaddlePaddle/PaddleX/blob/release/3.0/docs/pipeline_usage/tutorials/vlm_pipelines/doc_understanding.md 進行部署,並更新 mllm_chat_bot_config 設定。
if use_mllm:
mllm_chat_bot_config = {
"module_name": "chat_bot",
"model_name": "PP-DocBee",
"base_url": "http://127.0.0.1:8080/", # your local mllm service url
"api_type": "openai",
"api_key": "api_key", # your api_key
}
mllm_predict_res = pipeline.mllm_pred(
input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png",
key_list=["驾驶室准乘人数"],
mllm_chat_bot_config=mllm_chat_bot_config,
)
mllm_predict_info = mllm_predict_res["mllm_res"]
visual_info_list = []
for res in visual_predict_res:
visual_info_list.append(res["visual_info"])
layout_parsing_result = res["layout_parsing_result"]
vector_info = pipeline.build_vector(
visual_info_list, flag_save_bytes_vector=True, retriever_config=retriever_config
)
chat_result = pipeline.chat(
key_list=["驾驶室准乘人数"],
visual_info=visual_info_list,
vector_info=vector_info,
mllm_predict_info=mllm_predict_info,
chat_bot_config=chat_bot_config,
retriever_config=retriever_config,
)
print(chat_result)- 將模型轉換為 ONNX 格式:取得 ONNX 模型
- 使用 OpenVINO、ONNX Runtime、TensorRT 等引擎加速推論,或使用 ONNX 格式模型執行推論:高效能推論
- 使用多卡、多進程加速推論:產線平行推論
- 在 C++、C#、Java 等語言編寫的應用中整合 PaddleOCR:服務化部署。
⭐ 請給這個倉庫加星,以便第一時間獲取包含強大 OCR 及文件分析功能的精彩更新和新版本發布! ⭐
| 掃描 QR Code 關注飛槳官方帳號 | 掃描 QR Code 加入技術交流群組 |
|---|---|
![]() |
![]() |
PaddleOCR 的發展離不開社群的貢獻!💗 衷心感謝所有的開發者、合作夥伴與貢獻者!
| 專案名稱 | 簡介 |
|---|---|
| RAGFlow |
基於 RAG 的 AI 工作流引擎 |
| MinerU |
多類型文件轉 Markdown 工具 |
| Umi-OCR |
開源批次離線 OCR 軟體 |
| OmniParser |
基於純視覺的 GUI Agent 螢幕解析工具 |
| QAnything |
基於任意內容的問答系統 |
| PDF-Extract-Kit |
高效複雜 PDF 文件擷取工具套件 |
| Dango-Translator |
螢幕即時翻譯工具 |
| 更多專案 | 更多基於PaddleOCR的項目 |
本專案的發布受 Apache 2.0 license 授權條款認證。
@misc{paddleocr2020,
title={PaddleOCR, Awesome multilingual OCR toolkits based on PaddlePaddle.},
author={PaddlePaddle Authors},
howpublished = {\url{https://github.com/PaddlePaddle/PaddleOCR}},
year={2020}
}






