세계 최고의 OCR 툴킷 & 문서 AI 엔진
[English](../README.md) | [简体中文](./README_cn.md) | [繁體中文](./README_tcn.md) | [日本語](./README_ja.md) | 한국어 | [Français](./README_fr.md) | [Русский](./README_ru.md) | [Español](./README_es.md) | [العربية](./README_ar.md)
[](https://pepy.tech/projects/paddleocr)
[](https://github.com/PaddlePaddle/PaddleOCR/network/dependents)



[](https://www.paddleocr.com)
[](https://deepwiki.com/PaddlePaddle/PaddleOCR)
[](../LICENSE)
**PaddleOCR는 문서와 이미지를 업계 최고 수준의 정확도로 구조화된 LLM 지원 데이터(JSON/Markdown)로 변환합니다. 70,000개 이상의 Star와 Dify, RAGFlow, Cherry Studio 등 최상위 프로젝트의 신뢰를 받는 PaddleOCR는 지능형 RAG 및 에이전트 기반 애플리케이션 구축의 핵심 기반입니다.**
## 🚀 주요 기능
### 📄 지능형 문서 파싱 (LLM 지원)
> *복잡한 시각 자료를 LLM 시대에 맞는 구조화된 데이터로 변환합니다.*
* **최첨단 문서 VLM**: 문서 파싱을 위한 업계 최고의 경량 비전-언어 모델인 **PaddleOCR-VL-1.6 (0.9B)**를 탑재하였습니다. OmniDocBench v1.6에서 96.3% 정확도를 달성했으며, 텍스트·수식·표 인식에서 업계를 선도합니다. 고문서, 희귀 문자, 인장, 차트 등 다양한 시나리오에서의 성능도 크게 향상되었으며, **Markdown** 및 **JSON** 형식의 구조화된 출력을 지원합니다.
* **구조 인식 변환**: **PP-StructureV3**를 기반으로 복잡한 PDF와 이미지를 **Markdown** 또는 **JSON**으로 원활하게 변환합니다. PaddleOCR-VL 시리즈 모델과 달리 표 셀 좌표, 텍스트 좌표 등 더욱 세밀한 좌표 정보를 제공합니다.
* **상용 수준의 효율성**: 초소형 모델로 상용 등급의 정확도를 달성합니다. 공개 벤치마크에서 다수의 비공개 솔루션을 능가하면서도 엣지/클라우드 배포에 적합한 자원 효율성을 유지합니다.
### 🔍 범용 텍스트 인식 (장면 OCR)
> *고속 다국어 텍스트 탐지의 글로벌 표준.*
* **100개 이상의 언어 지원**: 방대한 글로벌 언어 라이브러리를 기본 지원합니다. **PP-OCRv6**는 단일 모델로 50개 언어(중국어, 영어, 일본어 및 46개 라틴 언어)를 통합 지원합니다.
* **복잡한 요소 처리**: 표준 텍스트 인식을 넘어 신분증, 거리 풍경, 도서, 산업 부품 등 다양한 환경에서의 **자연 장면 텍스트 탐지**를 지원합니다.
* **성능 도약**: PP-OCRv6는 PP-OCRv5 대비 검출 정확도 **+4.6%**, 인식 정확도 **+5.1%** 향상을 달성하며, 주류 비전 언어 모델을 능가합니다. CPU 추론 5.2배 가속.
| 프로젝트 이름 | 설명 |
| ------------ | ----------- |
| [Dify](https://github.com/langgenius/dify)

|에이전트 워크플로우 개발을 위한 프로덕션 지원 플랫폼.|
| [RAGFlow](https://github.com/infiniflow/ragflow)

|심층 문서 이해 기반 RAG 엔진.|
| [pathway](https://github.com/pathwaycom/pathway)

|스트림 처리, 실시간 분석, LLM 파이프라인 및 RAG를 위한 Python ETL 프레임워크.|
| [MinerU](https://github.com/opendatalab/MinerU)

|다양한 유형의 문서를 Markdown으로 변환하는 도구.|
| [Umi-OCR](https://github.com/hiroi-sora/Umi-OCR)

|무료, 오픈소스, 일괄 오프라인 OCR 소프트웨어.|
| [cherry-studio](https://github.com/CherryHQ/cherry-studio)

|여러 LLM 제공업체를 지원하는 데스크톱 클라이언트.|
| [haystack](https://github.com/deepset-ai/haystack)

|커스터마이징 가능한 프로덕션 지원 LLM 애플리케이션 구축을 위한 AI 오케스트레이션 프레임워크.|
| [OmniParser](https://github.com/microsoft/OmniParser)

|순수 비전 기반 GUI 에이전트를 위한 화면 파싱 도구.|
| [QAnything](https://github.com/netease-youdao/QAnything)

|모든 것에 기반한 질의응답.|
| [더 많은 프로젝트 보기](./awesome_projects.md) | [PaddleOCR 기반 추가 프로젝트](./awesome_projects.md)|
## 👩👩👧👦 기여자