GLM-OCR은 단순 텍스트 추출을 넘어 레이아웃·표·수식까지 포함한 복잡 문서를 구조화해주는 멀티모달 OCR 모델입니다. GLM-V 인코더–디코더 구조를 기반으로, CogViT 비전 인코더 + 경량 크로스모달 커넥터 + GLM-0.5B 언어 디코더를 사용하며, 문서 레이아웃 분석(PP-DocLayout-V3) + 영역별 병렬 인식 2단 파이프라인으로 품질을 끌어올린 것이 특징이에요.
- 성능 포인트: OmniDocBench V1.5에서 94.62 점으로 #1을 달성했다고 소개합니다(표/수식/정보추출 등 포함).
- 입출력/언어: PDF·이미지(JPG/PNG)를 입력으로 받고(최대 100페이지 지원), 결과는 텍스트/MD/구조화 출력 형태로 제공합니다. 한국어 포함 다국어 지원도 명시돼 있어요.
- 빠른 사용 방법 3가지
- 클라우드 API(MaaS): GPU 없이 API 키로 바로 사용
- 자가호스팅(vLLM/SGLang): 로컬 서버로 운영(고동시성/엣지에 유리)
- Ollama/MLX: 특수 환경(예: Apple Silicon) 배포 가이드 제공
- SDK/도구: CLI(glmocr parse ...)와 Python API, Flask 서비스까지 포함되어 “문서 → Markdown + JSON” 파이프라인을 손쉽게 붙일 수 있게 구성돼 있습니다.
- 라이선스 참고: 저장소 코드는 Apache-2.0, 모델은 MIT로 안내되며, 레이아웃 분석에 PP-DocLayoutV3를 통합하므로 관련 라이선스도 함께 준수해야 합니다.
추천 활용처: 문서 RAG 전처리, 영수증/청구서 자동 입력, 표/수식 데이터화, 코드/기술문서 OCR 등 “문서 이해”가 필요한 자동화에 특히 잘 맞습니다.
반응형
'IT 소식 > AI' 카테고리의 다른 글
| Claude Code를 “풀스택 페어 프로그래머”로 바꾸는 플러그인: Jeffallan/claude-skills (0) | 2026.02.12 |
|---|---|
| Claude Code를 “멀티 에이전트”로 강화하는 플러그인, oh-my-claudecode(OMC) 소개 (0) | 2026.01.30 |
| Clawdbot — 나만의 개인 AI 비서 (0) | 2026.01.26 |
