GLM-OCR은 단순 텍스트 추출을 넘어 레이아웃·표·수식까지 포함한 복잡 문서를 구조화해주는 멀티모달 OCR 모델입니다. GLM-V 인코더–디코더 구조를 기반으로, CogViT 비전 인코더 + 경량 크로스모달 커넥터 + GLM-0.5B 언어 디코더를 사용하며, 문서 레이아웃 분석(PP-DocLayout-V3) + 영역별 병렬 인식 2단 파이프라인으로 품질을 끌어올린 것이 특징이에요.

  • 성능 포인트: OmniDocBench V1.5에서 94.62 점으로 #1을 달성했다고 소개합니다(표/수식/정보추출 등 포함).
  • 입출력/언어: PDF·이미지(JPG/PNG)를 입력으로 받고(최대 100페이지 지원), 결과는 텍스트/MD/구조화 출력 형태로 제공합니다. 한국어 포함 다국어 지원도 명시돼 있어요.
  • 빠른 사용 방법 3가지
    1. 클라우드 API(MaaS): GPU 없이 API 키로 바로 사용
    2. 자가호스팅(vLLM/SGLang): 로컬 서버로 운영(고동시성/엣지에 유리)
    3. Ollama/MLX: 특수 환경(예: Apple Silicon) 배포 가이드 제공
  • SDK/도구: CLI(glmocr parse ...)와 Python API, Flask 서비스까지 포함되어 “문서 → Markdown + JSON” 파이프라인을 손쉽게 붙일 수 있게 구성돼 있습니다.
  • 라이선스 참고: 저장소 코드는 Apache-2.0, 모델은 MIT로 안내되며, 레이아웃 분석에 PP-DocLayoutV3를 통합하므로 관련 라이선스도 함께 준수해야 합니다.

추천 활용처: 문서 RAG 전처리, 영수증/청구서 자동 입력, 표/수식 데이터화, 코드/기술문서 OCR 등 “문서 이해”가 필요한 자동화에 특히 잘 맞습니다.

 

반응형

 

 

claude-skills는 Claude Code에서 사용할 수 있는 플러그인(스킬 모음)으로, 백엔드·프론트엔드·인프라·보안·테스트·DevOps 등 개발 전 영역에서 “상황에 맞는 전문가 역할”을 자동으로 불러오게 해주는 프로젝트입니다.

뭐가 좋은가? 

  • 66개 스킬 + 9개 워크플로우로 구성되어, 언어/프레임워크/운영/보안/데이터 등 다양한 작업을 역할 기반으로 처리합니다.
  • “점진적 공개(Progressive Disclosure)” 구조를 강조해, 짧은 핵심 스킬에서 시작해 필요할 때만 참고 자료를 로드하는 방식으로 설계되어 있습니다.
  • 프로젝트 단위 작업은 Jira/Confluence 연동 워크플로우 커맨드로 “디스커버리 → 계획 → 실행 → 회고” 흐름을 문서/결정의 체인으로 남기도록 돕습니다.

https://github.com/Jeffallan/claude-skills

 

GitHub - Jeffallan/claude-skills: 66 Specialized Skills for Full-Stack Developers. Transform Claude Code into your expert pair p

66 Specialized Skills for Full-Stack Developers. Transform Claude Code into your expert pair programmer. - Jeffallan/claude-skills

github.com

 

반응형

Paper2Slides는 연구 논문, 보고서 등 각종 문서를 입력하면 전문적인 슬라이드와 포스터를 빠르게 생성해주는 도구입니다.

핵심 포인트

  • 다양한 파일 형식 지원: PDF, Word, Excel, PowerPoint, Markdown 등 여러 문서를 한 번에 처리할 수 있어요.
  • RAG 기반 정밀 추출: 문서의 핵심 내용뿐 아니라 그림/표/데이터 포인트까지 놓치지 않도록 설계됐습니다.
  • 출처 추적(소스 링크) 강조: 생성된 내용이 원문과 연결되도록 “드리프트”를 줄이는 방향을 내세웁니다.
  • 스타일 커스터마이징: academic, doraemon 같은 기본 테마 + 자연어로 원하는 스타일을 설명해 커스텀도 가능.
  • 체크포인트/재개 기능: RAG→분석→기획→생성의 4단계 파이프라인을 진행하며 단계별로 저장해, 중단돼도 이어서 돌리기 좋습니다.
  • 빠른 모드 & 병렬 생성: --fast로 RAG 인덱싱을 건너뛰어 빠르게 미리보기/수정 가능하고, --parallel로 속도를 더 끌어올릴 수 있어요.
  • 웹 UI 제공: 로컬에서 백엔드/프론트를 띄워 웹 화면으로도 사용할 수 있습니다(기본 http://localhost:5173).
  • MIT 라이선스 오픈소스로 공개되어 있어요.

https://github.com/HKUDS/Paper2Slides

반응형

+ Recent posts