Boîte à outils OCR de pointe mondiale & Moteur d'IA documentaire
[English](../README.md) | [简体中文](./README_cn.md) | [繁體中文](./README_tcn.md) | [日本語](./README_ja.md) | [한국어](./README_ko.md) | Français | [Русский](./README_ru.md) | [Español](./README_es.md) | [العربية](./README_ar.md)
[](https://pepy.tech/projects/paddleocr)
[](https://github.com/PaddlePaddle/PaddleOCR/network/dependents)



[](https://www.paddleocr.com)
[](https://deepwiki.com/PaddlePaddle/PaddleOCR)
[](../LICENSE)
**PaddleOCR convertit des documents et des images en données structurées prêtes pour les LLM (JSON/Markdown) avec une précision de pointe dans l'industrie. Avec plus de 70k étoiles et la confiance de projets de premier plan tels que Dify, RAGFlow et Cherry Studio, PaddleOCR est le socle fondamental pour construire des applications RAG intelligentes et des applications Agentiques.**
## 🚀 Fonctionnalités clés
### 📄 Analyse intelligente de documents (prêt pour les LLM)
> *Transformer des visuels désordonnés en données structurées pour l'ère des LLM.*
* **VLM documentaire de pointe** : Avec **PaddleOCR-VL-1.6 (0,9 milliard de paramètres)**, le modèle vision-langage léger de pointe de l'industrie pour l'analyse de documents. Il atteint 96,3 % de précision sur OmniDocBench v1.6, mène l'industrie en reconnaissance de texte, formules et tableaux, et améliore significativement les capacités pour les documents anciens, les caractères rares, les sceaux et les graphiques, avec des sorties structurées aux formats **Markdown** et **JSON**.
* **Conversion avec conscience de la structure** : Propulsé par **PP-StructureV3**, convertissez sans effort des PDF et images complexes en **Markdown** ou **JSON**. Contrairement aux modèles de la série PaddleOCR-VL, il fournit des informations de coordonnées plus fines, incluant les coordonnées des cellules de tableau, les coordonnées du texte, et bien plus encore.
* **Efficacité prête pour la production** : Atteignez une précision de niveau commercial avec une empreinte ultra-réduite. Surpasse de nombreuses solutions propriétaires sur les benchmarks publics tout en restant économe en ressources pour le déploiement en périphérie ou dans le cloud.
### 🔍 Reconnaissance de texte universelle (OCR de scène)
> *L'étalon-or mondial pour la détection de texte multilingue à haute vitesse.*
* **Plus de 100 langues supportées** : Reconnaissance native pour une vaste bibliothèque mondiale. **PP-OCRv6** supporte 50 langues avec un seul modèle unifié (chinois, anglais, japonais et 46 langues latines) — sans changement de modèle.
* **Maîtrise des éléments complexes** : Au-delà de la reconnaissance de texte standard, nous prenons en charge la **détection de texte en scène naturelle** dans une large gamme d'environnements, y compris les pièces d'identité, les vues de rue, les livres et les composants industriels.
* **Bond en performance** : PP-OCRv6 atteint **+4.6% en détection** et **+5.1% en reconnaissance** par rapport à PP-OCRv5, surpassant les principaux modèles de langage visuel. Accélération 5.2× en inférence CPU de bout en bout.
| Nom du projet | Description |
| ------------ | ----------- |
| [Dify](https://github.com/langgenius/dify)

|Plateforme prête pour la production pour le développement de flux de travail agentiques.|
| [RAGFlow](https://github.com/infiniflow/ragflow)

|Moteur RAG basé sur la compréhension approfondie des documents.|
| [pathway](https://github.com/pathwaycom/pathway)

|Framework Python ETL pour le traitement de flux, l'analytique en temps réel, les pipelines LLM et le RAG.|
| [MinerU](https://github.com/opendatalab/MinerU)

|Outil de conversion de documents multi-types en Markdown.|
| [Umi-OCR](https://github.com/hiroi-sora/Umi-OCR)

|Logiciel OCR hors ligne par lots, gratuit et open-source.|
| [cherry-studio](https://github.com/CherryHQ/cherry-studio)

|Un client de bureau prenant en charge plusieurs fournisseurs de LLM.|
| [haystack](https://github.com/deepset-ai/haystack)

|Framework d'orchestration IA pour construire des applications LLM personnalisables et prêtes pour la production.|
| [OmniParser](https://github.com/microsoft/OmniParser)

|OmniParser : Outil d'analyse d'écran pour agent GUI basé sur la vision pure.|
| [QAnything](https://github.com/netease-youdao/QAnything)

|Questions et réponses basées sur n'importe quoi.|
| [En savoir plus sur les projets](./awesome_projects.md) | [Plus de projets basés sur PaddleOCR](./awesome_projects.md)|
## 👩👩👧👦 Contributeurs