世界をリードするOCRツールキット & ドキュメントAIエンジン
[English](../README.md) | [简体中文](./README_cn.md) | [繁體中文](./README_tcn.md) | 日本語 | [한국어](./README_ko.md) | [Français](./README_fr.md) | [Русский](./README_ru.md) | [Español](./README_es.md) | [العربية](./README_ar.md)
[](https://pepy.tech/projects/paddleocr)
[](https://github.com/PaddlePaddle/PaddleOCR/network/dependents)



[](https://www.paddleocr.com)
[](https://deepwiki.com/PaddlePaddle/PaddleOCR)
[](../LICENSE)
**PaddleOCRは、ドキュメントや画像を業界最高水準の精度で構造化されたLLM対応データ(JSON/Markdown)に変換します。70,000以上のStarを獲得し、Dify、RAGFlow、Cherry Studioなどの一流プロジェクトで採用されているPaddleOCRは、インテリジェントなRAGおよびエージェントアプリケーション構築の基盤です。**
## 🚀 主な機能
### 📄 インテリジェントドキュメント解析(LLM対応)
> *LLM時代に向けて、雑然とした視覚データを構造化データに変換*
* **最先端のドキュメントVLM**: 業界をリードする軽量視覚言語モデル **PaddleOCR-VL-1.6(0.9B)** を搭載。OmniDocBench v1.6 で 96.3% の精度を達成し、テキスト、数式、表の認識で業界をリード。古文書、稀な文字、印鑑、チャートなど多シーンの能力も大幅に強化され、**Markdown**および**JSON**形式の構造化出力に対応しています。
* **構造認識型変換**: **PP-StructureV3**を活用し、複雑なPDFや画像を**Markdown**または**JSON**にシームレスに変換します。PaddleOCR-VLシリーズモデルとは異なり、テーブルセル座標、テキスト座標などのより詳細な座標情報を提供します。
* **本番環境対応の効率性**: 超小型フットプリントで商用レベルの精度を実現。公開ベンチマークで多くのクローズドソースソリューションを凌駕しつつ、エッジ/クラウドデプロイメントに対してリソース効率を維持します。
### 🔍 汎用テキスト認識(シーンOCR)
> *高速・多言語テキスト検出のグローバルスタンダード*
* **100以上の言語をサポート**: 広範なグローバル言語ライブラリのネイティブ認識。**PP-OCRv6**は単一モデルで50言語(中国語、英語、日本語、46のラテン語系言語)を統一サポートします。
* **複雑な要素への対応力**: 標準的なテキスト認識を超え、身分証明書、街頭風景、書籍、産業部品など、幅広い環境での**自然シーンテキスト検出**をサポートします。
* **性能の飛躍的向上**: PP-OCRv6はPP-OCRv5と比較して検出精度**+4.6%**、認識精度**+5.1%**を達成し、主要な視覚言語モデルを上回ります。CPU推論5.2×高速化。
| プロジェクト名 | 説明 |
| ------------ | ----------- |
| [Dify](https://github.com/langgenius/dify)

|エージェントワークフロー開発のためのプロダクション対応プラットフォーム。|
| [RAGFlow](https://github.com/infiniflow/ragflow)

|深いドキュメント理解に基づくRAGエンジン。|
| [pathway](https://github.com/pathwaycom/pathway)

|ストリーム処理、リアルタイム分析、LLMパイプライン、RAG向けのPython ETLフレームワーク。|
| [MinerU](https://github.com/opendatalab/MinerU)

|マルチタイプドキュメントからMarkdownへの変換ツール。|
| [Umi-OCR](https://github.com/hiroi-sora/Umi-OCR)

|無料・オープンソースのバッチオフラインOCRソフトウェア。|
| [cherry-studio](https://github.com/CherryHQ/cherry-studio)

|複数のLLMプロバイダーをサポートするデスクトップクライアント。|
| [haystack](https://github.com/deepset-ai/haystack)

|カスタマイズ可能なプロダクション対応LLMアプリケーションを構築するためのAIオーケストレーションフレームワーク。|
| [OmniParser](https://github.com/microsoft/OmniParser)

|純粋なビジョンベースのGUIエージェント向け画面解析ツール。|
| [QAnything](https://github.com/netease-youdao/QAnything)

|あらゆるものに基づく質問応答。|
| [その他のプロジェクトを見る](./awesome_projects.md) | [PaddleOCRに基づくその他のプロジェクト](./awesome_projects.md)|
## 👩👩👧👦 コントリビューター