Ведущий в мире инструментарий OCR и движок Document AI
[English](../README.md) | [简体中文](./README_cn.md) | [繁體中文](./README_tcn.md) | [日本語](./README_ja.md) | [한국어](./README_ko.md) | [Français](./README_fr.md) | Русский | [Español](./README_es.md) | [العربية](./README_ar.md)
[](https://pepy.tech/projects/paddleocr)
[](https://github.com/PaddlePaddle/PaddleOCR/network/dependents)



[](https://www.paddleocr.com)
[](https://deepwiki.com/PaddlePaddle/PaddleOCR)
[](../LICENSE)
**PaddleOCR преобразует документы и изображения в структурированные данные, готовые для использования с LLM (JSON/Markdown), с точностью мирового уровня. Имея более 70 тысяч звёзд и доверие таких ведущих проектов, как Dify, RAGFlow и Cherry Studio, PaddleOCR является основой для создания интеллектуальных приложений RAG и Agentic.**
## 🚀 Ключевые возможности
### 📄 Интеллектуальный разбор документов (готово для LLM)
> *Преобразование сложных визуальных данных в структурированные данные для эпохи LLM.*
* **SOTA Document VLM**: Featuring **PaddleOCR-VL-1.6 (0.9B)**, the industry's leading lightweight vision-language model for document parsing. It achieves 96.3% accuracy on OmniDocBench v1.6, leads in text, formula, and table recognition, and shows significantly enhanced capabilities in ancient documents, rare characters, seals, and charts, with structured outputs in **Markdown** and **JSON** formats.
* **Конвертация с учётом структуры**: На основе **PP-StructureV3** — бесшовное преобразование сложных PDF-файлов и изображений в **Markdown** или **JSON**. В отличие от моделей серии PaddleOCR-VL, предоставляет более детальную координатную информацию, включая координаты ячеек таблиц, координаты текста и многое другое.
* **Эффективность промышленного уровня**: Коммерческая точность при минимальном объёме ресурсов. Превосходит многочисленные закрытые решения в публичных тестах, оставаясь ресурсоэффективным для развёртывания на периферийных устройствах и в облаке.
### 🔍 Универсальное распознавание текста (Scene OCR)
> *Мировой золотой стандарт высокоскоростного многоязычного обнаружения текста.*
* **Поддержка 100+ языков**: Нативное распознавание обширной глобальной библиотеки. **PP-OCRv6** поддерживает 50 языков единой моделью (китайский, английский, японский и 46 латинских языков) — без переключения моделей.
* **Мастерство работы со сложными элементами**: Помимо стандартного распознавания текста, поддерживается **обнаружение текста в естественных сценах** в широком диапазоне условий, включая удостоверения личности, уличные виды, книги и промышленные компоненты.
* **Скачок производительности**: PP-OCRv6 достигает **+4.6% детекции** и **+5.1% распознавания** по сравнению с PP-OCRv5, превосходя ведущие визуально-языковые модели. Ускорение CPU-инференса в 5.2×.
| Название проекта | Описание |
| ------------ | ----------- |
| [Dify](https://github.com/langgenius/dify)

|Готовая к производству платформа для разработки агентных рабочих процессов.|
| [RAGFlow](https://github.com/infiniflow/ragflow)

|RAG-движок на основе глубокого понимания документов.|
| [pathway](https://github.com/pathwaycom/pathway)

|Python ETL-фреймворк для потоковой обработки, аналитики в реальном времени, конвейеров LLM и RAG.|
| [MinerU](https://github.com/opendatalab/MinerU)

|Инструмент для конвертации документов различных типов в Markdown.|
| [Umi-OCR](https://github.com/hiroi-sora/Umi-OCR)

|Бесплатное программное обеспечение для пакетного офлайн-OCR с открытым исходным кодом.|
| [cherry-studio](https://github.com/CherryHQ/cherry-studio)

|Настольный клиент с поддержкой нескольких провайдеров LLM.|
| [haystack](https://github.com/deepset-ai/haystack)

|Фреймворк оркестрации AI для создания настраиваемых, готовых к производству приложений LLM.|
| [OmniParser](https://github.com/microsoft/OmniParser)

|OmniParser: инструмент разбора экрана для агента GUI на основе чистого зрения.|
| [QAnything](https://github.com/netease-youdao/QAnything)

|Вопросы и ответы на основе чего угодно.|
| [Узнать о других проектах](./awesome_projects.md) | [Другие проекты на основе PaddleOCR](./awesome_projects.md)|
## 👩👩👧👦 Участники