GLM-OCR: “작지만 강한” 문서 이해형 OCR 오픈소스

화니. 2026. 2. 12. 09:55

2026. 2. 12. 09:55

GLM-OCR은 단순 텍스트 추출을 넘어 레이아웃·표·수식까지 포함한 복잡 문서를 구조화해주는 멀티모달 OCR 모델입니다. GLM-V 인코더–디코더 구조를 기반으로, CogViT 비전 인코더 + 경량 크로스모달 커넥터 + GLM-0.5B 언어 디코더를 사용하며, 문서 레이아웃 분석(PP-DocLayout-V3) + 영역별 병렬 인식 2단 파이프라인으로 품질을 끌어올린 것이 특징이에요.

성능 포인트: OmniDocBench V1.5에서 94.62 점으로 #1을 달성했다고 소개합니다(표/수식/정보추출 등 포함).
입출력/언어: PDF·이미지(JPG/PNG)를 입력으로 받고(최대 100페이지 지원), 결과는 텍스트/MD/구조화 출력 형태로 제공합니다. 한국어 포함 다국어 지원도 명시돼 있어요.
빠른 사용 방법 3가지
1. 클라우드 API(MaaS): GPU 없이 API 키로 바로 사용
2. 자가호스팅(vLLM/SGLang): 로컬 서버로 운영(고동시성/엣지에 유리)
3. Ollama/MLX: 특수 환경(예: Apple Silicon) 배포 가이드 제공
SDK/도구: CLI(glmocr parse ...)와 Python API, Flask 서비스까지 포함되어 “문서 → Markdown + JSON” 파이프라인을 손쉽게 붙일 수 있게 구성돼 있습니다.
라이선스 참고: 저장소 코드는 Apache-2.0, 모델은 MIT로 안내되며, 레이아웃 분석에 PP-DocLayoutV3를 통합하므로 관련 라이선스도 함께 준수해야 합니다.

추천 활용처: 문서 RAG 전처리, 영수증/청구서 자동 입력, 표/수식 데이터화, 코드/기술문서 OCR 등 “문서 이해”가 필요한 자동화에 특히 잘 맞습니다.

https://github.com/zai-org/GLM-OCR

GitHub - zai-org/GLM-OCR: GLM-OCR: Accurate × Fast × Comprehensive

GLM-OCR: Accurate × Fast × Comprehensive. Contribute to zai-org/GLM-OCR development by creating an account on GitHub.

github.com

'IT 소식 > AI' 카테고리의 다른 글

AI로 빠르게 라벨링하는 오픈소스 툴, X-AnyLabeling 소개 (0)	2026.02.27
Claude Code를 “풀스택 페어 프로그래머”로 바꾸는 플러그인: Jeffallan/claude-skills (0)	2026.02.12
Claude Code를 “멀티 에이전트”로 강화하는 플러그인, oh-my-claudecode(OMC) 소개 (0)	2026.01.30

화니의 세상

GLM-OCR: “작지만 강한” 문서 이해형 OCR 오픈소스

'IT 소식 > AI' 카테고리의 다른 글

+ Recent posts

티스토리툴바