مجموعة أدوات التعرف الضوئي على الحروف (OCR) الرائدة عالمياً ومحرك الذكاء الاصطناعي للمستندات
[English](../README.md) | [简体中文](./README_cn.md) | [繁體中文](./README_tcn.md) | [日本語](./README_ja.md) | [한국어](./README_ko.md) | [Français](./README_fr.md) | [Русский](./README_ru.md) | [Español](./README_es.md) | العربية
[](https://pepy.tech/projects/paddleocr)
[](https://github.com/PaddlePaddle/PaddleOCR/network/dependents)



[](https://www.paddleocr.com)
[](https://deepwiki.com/PaddlePaddle/PaddleOCR)
[](../LICENSE)
**يحوّل PaddleOCR المستندات والصور إلى بيانات منظمة جاهزة للنماذج اللغوية الكبيرة (JSON/Markdown) بدقة رائدة في المجال. بأكثر من 70 ألف نجمة وثقة مشاريع رائدة مثل Dify وRAGFlow وCherry Studio، يُعد PaddleOCR الأساس المتين لبناء تطبيقات RAG والتطبيقات الوكيلية الذكية.**
## 🚀 الميزات الرئيسية
### 📄 تحليل ذكي للمستندات (جاهز للنماذج اللغوية الكبيرة)
> *تحويل المرئيات المعقدة إلى بيانات منظمة لعصر النماذج اللغوية الكبيرة.*
* **نموذج رؤية-لغة رائد للمستندات**: يتميز بنموذج **PaddleOCR-VL-1.6 (0.9B)**، النموذج خفيف الحجم الرائد في المجال للرؤية واللغة لتحليل المستندات. يحقق دقة 96.3% على OmniDocBench v1.6، ويتصدر في التعرف على النصوص والصيغ والجداول، مع تحسينات كبيرة في المستندات القديمة والأحرف النادرة والأختام والرسوم البيانية، مع مخرجات منظمة بصيغ **Markdown** و**JSON**.
* **تحويل مدرك للبنية**: بدعم من **PP-StructureV3**، يتم تحويل ملفات PDF والصور المعقدة بسلاسة إلى **Markdown** أو **JSON**. على عكس نماذج سلسلة PaddleOCR-VL، يوفر معلومات إحداثية أدق تشمل إحداثيات خلايا الجداول وإحداثيات النصوص وغيرها.
* **كفاءة جاهزة للإنتاج**: تحقيق دقة بمستوى تجاري مع حجم صغير للغاية. يتفوق على العديد من الحلول المغلقة المصدر في المعايير المرجعية العامة مع الحفاظ على كفاءة استخدام الموارد للنشر على الأجهزة الطرفية والسحابية.
### 🔍 التعرف الشامل على النصوص (OCR للمشاهد)
> *المعيار الذهبي العالمي للكشف السريع عن النصوص متعددة اللغات.*
* **دعم أكثر من 100 لغة**: تعرف أصلي على مكتبة عالمية واسعة. **PP-OCRv6** يدعم 50 لغة بنموذج واحد موحد (الصينية، الإنجليزية، اليابانية، و46 لغة لاتينية) — لا حاجة لتبديل النماذج.
* **إتقان العناصر المعقدة**: بالإضافة إلى التعرف القياسي على النصوص، ندعم **الكشف عن النصوص في المشاهد الطبيعية** عبر مجموعة واسعة من البيئات، بما في ذلك بطاقات الهوية، ومشاهد الشوارع، والكتب، والمكونات الصناعية.
* **قفزة في الأداء**: يحقق PP-OCRv6 تحسيناً في دقة الكشف بنسبة **4.6%** والتعرف بنسبة **5.1%** مقارنة بـ PP-OCRv5، متفوقاً على النماذج اللغوية البصرية الرئيسية. تسريع 5.2× في الاستدلال على وحدة المعالجة المركزية.
| اسم المشروع | الوصف |
| ------------ | ----------- |
| [Dify](https://github.com/langgenius/dify)

|منصة جاهزة للإنتاج لتطوير سير العمل الوكيلي.|
| [RAGFlow](https://github.com/infiniflow/ragflow)

|محرك RAG قائم على الفهم العميق للمستندات.|
| [pathway](https://github.com/pathwaycom/pathway)

|إطار عمل Python ETL لمعالجة التدفقات والتحليلات الآنية وخطوط أنابيب النماذج اللغوية الكبيرة وRAG.|
| [MinerU](https://github.com/opendatalab/MinerU)

|أداة تحويل المستندات متعددة الأنواع إلى Markdown.|
| [Umi-OCR](https://github.com/hiroi-sora/Umi-OCR)

|برنامج OCR مجاني، مفتوح المصدر، للمعالجة الدفعية دون اتصال بالإنترنت.|
| [cherry-studio](https://github.com/CherryHQ/cherry-studio)

|تطبيق سطح مكتب يدعم مزودي نماذج لغوية كبيرة متعددين.|
| [haystack](https://github.com/deepset-ai/haystack)

|إطار عمل لتنظيم الذكاء الاصطناعي لبناء تطبيقات نماذج لغوية كبيرة قابلة للتخصيص وجاهزة للإنتاج.|
| [OmniParser](https://github.com/microsoft/OmniParser)

|OmniParser: أداة تحليل الشاشة لوكيل واجهة المستخدم الرسومية القائم على الرؤية البحتة.|
| [QAnything](https://github.com/netease-youdao/QAnything)

|الأسئلة والأجوبة المبنية على أي شيء.|
| [تعرّف على المزيد من المشاريع](./awesome_projects.md) | [المزيد من المشاريع المبنية على PaddleOCR](./awesome_projects.md)|
## 👩👩👧👦 المساهمون