GLM-OCR은 단순 텍스트 추출을 넘어 레이아웃·표·수식까지 포함한 복잡 문서를 구조화해주는 멀티모달 OCR 모델입니다. GLM-V 인코더–디코더 구조를 기반으로, CogViT 비전 인코더 + 경량 크로스모달 커넥터 + GLM-0.5B 언어 디코더를 사용하며, 문서 레이아웃 분석(PP-DocLayout-V3) + 영역별 병렬 인식 2단 파이프라인으로 품질을 끌어올린 것이 특징이에요.

  • 성능 포인트: OmniDocBench V1.5에서 94.62 점으로 #1을 달성했다고 소개합니다(표/수식/정보추출 등 포함).
  • 입출력/언어: PDF·이미지(JPG/PNG)를 입력으로 받고(최대 100페이지 지원), 결과는 텍스트/MD/구조화 출력 형태로 제공합니다. 한국어 포함 다국어 지원도 명시돼 있어요.
  • 빠른 사용 방법 3가지
    1. 클라우드 API(MaaS): GPU 없이 API 키로 바로 사용
    2. 자가호스팅(vLLM/SGLang): 로컬 서버로 운영(고동시성/엣지에 유리)
    3. Ollama/MLX: 특수 환경(예: Apple Silicon) 배포 가이드 제공
  • SDK/도구: CLI(glmocr parse ...)와 Python API, Flask 서비스까지 포함되어 “문서 → Markdown + JSON” 파이프라인을 손쉽게 붙일 수 있게 구성돼 있습니다.
  • 라이선스 참고: 저장소 코드는 Apache-2.0, 모델은 MIT로 안내되며, 레이아웃 분석에 PP-DocLayoutV3를 통합하므로 관련 라이선스도 함께 준수해야 합니다.

추천 활용처: 문서 RAG 전처리, 영수증/청구서 자동 입력, 표/수식 데이터화, 코드/기술문서 OCR 등 “문서 이해”가 필요한 자동화에 특히 잘 맞습니다.

 

반응형

Docling은 다양한 문서 형식을 쉽게 처리하고, 생성형 AI와 연동할 수 있도록 돕는 오픈소스 프로젝트입니다. PDF, DOCX, PPTX, XLSX, HTML뿐만 아니라 이미지와 오디오 파일까지 지원하며, 고급 PDF 분석 기능을 통해 표, 코드, 수식, 레이아웃까지 이해할 수 있습니다.

 

또한 문서를 Markdown, HTML, JSON 등 여러 형식으로 변환할 수 있으며, LangChain, LlamaIndex, Haystack 같은 AI 프레임워크와도 손쉽게 통합할 수 있습니다. 로컬 실행도 가능해 보안이 중요한 환경에서도 활용할 수 있다는 점이 특징입니다.

 

https://github.com/docling-project/docling

 

GitHub - docling-project/docling: Get your documents ready for gen AI

Get your documents ready for gen AI. Contribute to docling-project/docling development by creating an account on GitHub.

github.com

 

반응형

OCR4all은 무료 오픈소스 OCR(광학 문자 인식) 소프트웨어로, 복잡한 필사본부터 대량의 인쇄물까지 고품질 문자 인식을 제공합니다.

 

사용자가 코드 없이 UI를 통해 OCR 워크플로우를 생성할 수 있으며, 강력한 LAREX 편집기를 활용해 텍스트와 레이아웃을 수동으로 조정할 수 있습니다.

 

또한 OCR-D 생태계와 완벽하게 호환되며, Docker를 이용한 간편한 크로스플랫폼 배포가 가능합니다.

 

https://www.ocr4all.org/

반응형

MarkItDown은 Microsoft에서 제공하는 Python 기반 도구로, 다양한 문서를 Markdown 형식으로 변환할 수 있습니다.

 

지원되는 파일 형식에는 PDF, Word(.docx), Excel(.xlsx), PowerPoint(.pptx), HTML, 이미지(EXIF 메타데이터 및 OCR 포함), 오디오 파일(음성 인식 포함) 등이 포함됩니다.

 

이 도구는 간단한 API를 통해 손쉽게 사용할 수 있으며, 텍스트 분석 및 데이터 정리를 위한 강력한 도구입니다.

 

자세한 내용은 GitHub 페이지에서 확인하세요.

 

https://github.com/microsoft/markitdown

반응형

+ Recent posts