[English](../README.md) | 简体中文 | [繁體中文](./README_tcn.md) | [日本語](./README_ja.md) | [한국어](./README_ko.md) | [Français](./README_fr.md) | [Русский](./README_ru.md) | [Español](./README_es.md) | [العربية](./README_ar.md)
[](https://github.com/PaddlePaddle/PaddleOCR)
[](https://github.com/PaddlePaddle/PaddleOCR)
[](https://arxiv.org/pdf/2507.05595)
[](https://arxiv.org/abs/2510.14528)
[](https://pepy.tech/projectsproject/paddleocr)
[](https://pepy.tech/projects/paddleocr)
[](https://github.com/PaddlePaddle/PaddleOCR/network/dependents)
[](https://pypi.org/project/paddleocr/)



[](../LICENSE)
[](https://deepwiki.com/PaddlePaddle/PaddleOCR)
[](https://www.paddleocr.com)
**PaddleOCR 是业界领先、可直接部署的 OCR 与文档智能引擎,提供从文本识别到文档理解的全流程解决方案**
# PaddleOCR
[](https://www.paddlepaddle.org.cn/)
[](#)
[](#)
[](#)
[](#)
> [!TIP]
> PaddleOCR 现已提供 MCP服务器,支持与 Claude Desktop 等Agent应用集成。详情请参考 [PaddleOCR MCP 服务器](https://paddlepaddle.github.io/PaddleOCR/latest/version3.x/deployment/mcp_server.html)。
>
> PaddleOCR 3.0 技术报告现已发布,详情请参考:[PaddleOCR 3.0 Technical Report](https://arxiv.org/pdf/2507.05595)。
>
> PaddleOCR-VL 技术报告现已发布,详情请参考:[PaddleOCR-VL Technical Report](https://arxiv.org/abs/2510.14528)。
>
> PaddleOCR 官网 Beta 版现已上线,支持更便捷的在线体验和大批量 PDF 文件解析,并提供免费 API 及 MCP 服务。更多详情请参见 [PaddleOCR 官网](https://www.paddleocr.com)。
**PaddleOCR** 将文档和图像转换为**结构化、AI友好的数据**(如JSON和Markdown),**精度达到行业领先水平**——为全球从独立开发者,初创企业和大型企业的AI应用提供强力支撑。凭借**60,000+星标**和**MinerU、RAGFlow、pathway、cherry-studio**等头部项目的深度集成,PaddleOCR已成为**AI时代**开发者构建智能文档等应用的**首选解决方案**。
### PaddleOCR 3.0 **核心能力**
[](https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo)
[](https://aistudio.baidu.com/application/detail/98365)
[](https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo)
[](https://aistudio.baidu.com/community/app/91660/webUI)
[](https://aistudio.baidu.com/community/app/518494/webUI)
[](https://aistudio.baidu.com/community/app/518493/webUI)
- **PaddleOCR-VL - 通过 0.9B 超紧凑视觉语言模型增强多语种文档解析**
**面向文档解析的 SOTA 且资源高效的模型**, 支持 109 种语言,在复杂元素(如文本、表格、公式和图表)识别方面表现出色,同时资源消耗极低。
- **PP-OCRv5 — 全场景文字识别**
**单模型支持五种文字类型**(简中、繁中、英文、日文及拼音),精度提升**13个百分点**。解决多语言混合文档的识别难题。
- **PP-StructureV3 — 复杂文档解析**
将复杂PDF和文档图像智能转换为保留**原始结构的Markdown文件和JSON**文件,在公开评测中**领先**众多商业方案。**完美保持文档版式和层次结构**。
- **PP-ChatOCRv4 — 智能信息抽取**
原生集成ERNIE 4.5,从海量文档中**精准提取关键信息**,精度较上一代提升15个百分点。让文档"**听懂**"您的问题并给出准确答案。
PaddleOCR 3.0除了提供优秀的模型库外,还提供好学易用的工具,覆盖模型训练、推理和服务化部署,方便开发者快速落地AI应用。
PaddleOCR 的发展离不开社区贡献!💗衷心感谢所有开发者、合作伙伴与贡献者!
| 项目名称 | 简介 |
| ------------ | ----------- |
| [RAGFlow](https://github.com/infiniflow/ragflow)

|基于RAG的AI工作流引擎|
| [pathway](https://github.com/pathwaycom/pathway)

|用于流处理、实时分析、LLM流水线和RAG的Python ETL框架|
| [MinerU](https://github.com/opendatalab/MinerU)

|多类型文档转换Markdown工具|
| [Umi-OCR](https://github.com/hiroi-sora/Umi-OCR)

|开源批量离线OCR软件|
| [cherry-studio](https://github.com/CherryHQ/cherry-studio)

|一个支持多个LLM提供商的桌面客户端|
| [OmniParser](https://github.com/microsoft/OmniParser)

|基于纯视觉的GUI智能体屏幕解析工具|
| [QAnything](https://github.com/netease-youdao/QAnything)

|基于任意内容的问答系统|
| [PDF-Extract-Kit](https://github.com/opendatalab/PDF-Extract-Kit)

|高效复杂PDF文档提取工具包|
| [Dango-Translator](https://github.com/PantsuDango/Dango-Translator)

|屏幕实时翻译工具|
| [更多项目](../awesome_projects.md) | [更多基于PaddleOCR的项目](../awesome_projects.md) |
## 👩👩👧👦 贡献者