'OCR' 태그의 글 목록

OCR

AI로 빠르게 라벨링하는 오픈소스 툴, X-AnyLabeling 소개 2026.02.27
GLM-OCR: “작지만 강한” 문서 이해형 OCR 오픈소스 2026.02.12
Docling: 문서 처리를 위한 오픈소스 AI 도구 2025.09.22
OCR4all – 누구나 사용할 수 있는 무료 OCR 솔루션 2025.02.15
MarkItDown: 다양한 문서를 Markdown으로 변환하는 Python 도구 2024.12.14 1

AI로 빠르게 라벨링하는 오픈소스 툴, X-AnyLabeling 소개

화니. 2026. 2. 27. 23:15

2026. 2. 27. 23:15

X-AnyLabeling은 이미지/비디오 데이터에 대해 AI 보조 자동 라벨링을 지원하는 강력한 어노테이션(라벨링) 도구입니다. Segment Anything(SAM) 계열 모델을 포함해 다양한 모델을 붙여서 검출·분할·포즈·추적·OCR·VLM 작업까지 폭넓게 다룰 수 있는 “올인원 라벨링 워크벤치”에 가깝습니다.

핵심 특징 한눈에 보기

Auto-Labeling / Auto-Training 흐름을 지원해 반복 라벨링 시간을 크게 절약
다양한 어노테이션 도형(폴리곤/사각형/회전박스/원/포인트 등)과 편의 기능(예: 브러시 폴리곤, 마스크 반투명 표시, 비교 뷰) 제공
모델 연동 폭이 넓음: YOLO 계열(검출/분할/포즈/회전검출), SAM 1/2/3(세그멘테이션), 추적(ByteTrack 등), OCR(PaddleOCR 계열), 멀티모달/VLM(예: Qwen 계열, ChatGPT 등)까지 “모델 주(動) + 라벨러(靜)” 조합이 가능
이미지뿐 아니라 비디오 기반 검출·분할·트래킹 워크플로도 예시로 제공

함께 보면 좋은 구성: X-AnyLabeling-Server

로컬에서 모델을 돌리는 것뿐 아니라, 원격 추론(서버) 방식으로도 확장할 수 있게 별도 서버 프로젝트(X-AnyLabeling-Server)를 제공합니다. “가볍게 띄우고, 플러그인처럼 모델을 붙이는” 컨셉이라 팀 단위 운영에도 어울립니다.

https://github.com/CVHub520/X-AnyLabeling

GitHub - CVHub520/X-AnyLabeling: Effortless data labeling with AI support from Segment Anything and other awesome models.

Effortless data labeling with AI support from Segment Anything and other awesome models. - CVHub520/X-AnyLabeling

github.com

https://github.com/CVHub520/X-AnyLabeling-Server

GitHub - CVHub520/X-AnyLabeling-Server: A Simple, Lightweight, and Extensible Serving Framework for X-AnyLabeling

A Simple, Lightweight, and Extensible Serving Framework for X-AnyLabeling - CVHub520/X-AnyLabeling-Server

github.com

교육

'IT 소식 > AI' 카테고리의 다른 글

LiteLLM 소개: 100개 이상의 LLM을 하나의 OpenAI 형식으로 연결하는 통합 게이트웨이 (0)	2026.03.10
GLM-OCR: “작지만 강한” 문서 이해형 OCR 오픈소스 (0)	2026.02.12
Claude Code를 “풀스택 페어 프로그래머”로 바꾸는 플러그인: Jeffallan/claude-skills (0)	2026.02.12

GLM-OCR: “작지만 강한” 문서 이해형 OCR 오픈소스

화니. 2026. 2. 12. 09:55

2026. 2. 12. 09:55

GLM-OCR은 단순 텍스트 추출을 넘어 레이아웃·표·수식까지 포함한 복잡 문서를 구조화해주는 멀티모달 OCR 모델입니다. GLM-V 인코더–디코더 구조를 기반으로, CogViT 비전 인코더 + 경량 크로스모달 커넥터 + GLM-0.5B 언어 디코더를 사용하며, 문서 레이아웃 분석(PP-DocLayout-V3) + 영역별 병렬 인식 2단 파이프라인으로 품질을 끌어올린 것이 특징이에요.

성능 포인트: OmniDocBench V1.5에서 94.62 점으로 #1을 달성했다고 소개합니다(표/수식/정보추출 등 포함).
입출력/언어: PDF·이미지(JPG/PNG)를 입력으로 받고(최대 100페이지 지원), 결과는 텍스트/MD/구조화 출력 형태로 제공합니다. 한국어 포함 다국어 지원도 명시돼 있어요.
빠른 사용 방법 3가지
1. 클라우드 API(MaaS): GPU 없이 API 키로 바로 사용
2. 자가호스팅(vLLM/SGLang): 로컬 서버로 운영(고동시성/엣지에 유리)
3. Ollama/MLX: 특수 환경(예: Apple Silicon) 배포 가이드 제공
SDK/도구: CLI(glmocr parse ...)와 Python API, Flask 서비스까지 포함되어 “문서 → Markdown + JSON” 파이프라인을 손쉽게 붙일 수 있게 구성돼 있습니다.
라이선스 참고: 저장소 코드는 Apache-2.0, 모델은 MIT로 안내되며, 레이아웃 분석에 PP-DocLayoutV3를 통합하므로 관련 라이선스도 함께 준수해야 합니다.

추천 활용처: 문서 RAG 전처리, 영수증/청구서 자동 입력, 표/수식 데이터화, 코드/기술문서 OCR 등 “문서 이해”가 필요한 자동화에 특히 잘 맞습니다.

https://github.com/zai-org/GLM-OCR

GitHub - zai-org/GLM-OCR: GLM-OCR: Accurate × Fast × Comprehensive

GLM-OCR: Accurate × Fast × Comprehensive. Contribute to zai-org/GLM-OCR development by creating an account on GitHub.

github.com

'IT 소식 > AI' 카테고리의 다른 글

AI로 빠르게 라벨링하는 오픈소스 툴, X-AnyLabeling 소개 (0)	2026.02.27
Claude Code를 “풀스택 페어 프로그래머”로 바꾸는 플러그인: Jeffallan/claude-skills (0)	2026.02.12
Claude Code를 “멀티 에이전트”로 강화하는 플러그인, oh-my-claudecode(OMC) 소개 (0)	2026.01.30

Docling: 문서 처리를 위한 오픈소스 AI 도구

화니. 2025. 9. 22. 20:13

2025. 9. 22. 20:13

Docling은 다양한 문서 형식을 쉽게 처리하고, 생성형 AI와 연동할 수 있도록 돕는 오픈소스 프로젝트입니다. PDF, DOCX, PPTX, XLSX, HTML뿐만 아니라 이미지와 오디오 파일까지 지원하며, 고급 PDF 분석 기능을 통해 표, 코드, 수식, 레이아웃까지 이해할 수 있습니다.

또한 문서를 Markdown, HTML, JSON 등 여러 형식으로 변환할 수 있으며, LangChain, LlamaIndex, Haystack 같은 AI 프레임워크와도 손쉽게 통합할 수 있습니다. 로컬 실행도 가능해 보안이 중요한 환경에서도 활용할 수 있다는 점이 특징입니다.

https://github.com/docling-project/docling

GitHub - docling-project/docling: Get your documents ready for gen AI

Get your documents ready for gen AI. Contribute to docling-project/docling development by creating an account on GitHub.

github.com

'IT 소식 > AI' 카테고리의 다른 글

Supertonic — 초고속 온디바이스 TTS (0)	2026.01.09
ApeRAG: 지식 그래프 기반 RAG 플랫폼으로 차세대 AI 애플리케이션 구축하기 (0)	2025.09.16
ScreenCoder: UI 스크린샷을 HTML/CSS 코드로 자동 변환하는 모듈형 AI 시스템 (0)	2025.08.06

OCR4all – 누구나 사용할 수 있는 무료 OCR 솔루션

화니. 2025. 2. 15. 05:40

2025. 2. 15. 05:40

OCR4all은 무료 오픈소스 OCR(광학 문자 인식) 소프트웨어로, 복잡한 필사본부터 대량의 인쇄물까지 고품질 문자 인식을 제공합니다.

사용자가 코드 없이 UI를 통해 OCR 워크플로우를 생성할 수 있으며, 강력한 LAREX 편집기를 활용해 텍스트와 레이아웃을 수동으로 조정할 수 있습니다.

또한 OCR-D 생태계와 완벽하게 호환되며, Docker를 이용한 간편한 크로스플랫폼 배포가 가능합니다.

https://www.ocr4all.org/

'IT 소식 > 오픈소스' 카테고리의 다른 글

간편하고 강력한 웹 서버 Caddy (1)	2025.02.17
웹사이트 스크린샷 자동화 API, ScrapeServ 소개 (0)	2025.02.07
Sniffnet – 인터넷 트래픽을 손쉽게 모니터링하는 오픈소스 도구 (0)	2025.02.03

MarkItDown: 다양한 문서를 Markdown으로 변환하는 Python 도구

화니. 2024. 12. 14. 11:01

2024. 12. 14. 11:01

MarkItDown은 Microsoft에서 제공하는 Python 기반 도구로, 다양한 문서를 Markdown 형식으로 변환할 수 있습니다.

지원되는 파일 형식에는 PDF, Word(.docx), Excel(.xlsx), PowerPoint(.pptx), HTML, 이미지(EXIF 메타데이터 및 OCR 포함), 오디오 파일(음성 인식 포함) 등이 포함됩니다.

이 도구는 간단한 API를 통해 손쉽게 사용할 수 있으며, 텍스트 분석 및 데이터 정리를 위한 강력한 도구입니다.

자세한 내용은 GitHub 페이지에서 확인하세요.

https://github.com/microsoft/markitdown

'IT 소식 > 오픈소스' 카테고리의 다른 글

FindMy.py: 애플 FindMy 네트워크 통합 라이브러리 소개 (0)	2024.12.22
SeekStorm : 초고속 텍스트 검색 라이브러리 (0)	2024.12.03
React Scan: 리액트 성능 최적화를 위한 강력한 도구 (1)	2024.12.02

PREV 이전 1 NEXT 다음

화니의 세상

OCR

AI로 빠르게 라벨링하는 오픈소스 툴, X-AnyLabeling 소개

핵심 특징 한눈에 보기

함께 보면 좋은 구성: X-AnyLabeling-Server

'IT 소식 > AI' 카테고리의 다른 글

GLM-OCR: “작지만 강한” 문서 이해형 OCR 오픈소스

'IT 소식 > AI' 카테고리의 다른 글

Docling: 문서 처리를 위한 오픈소스 AI 도구

'IT 소식 > AI' 카테고리의 다른 글

OCR4all – 누구나 사용할 수 있는 무료 OCR 솔루션

'IT 소식 > 오픈소스' 카테고리의 다른 글

MarkItDown: 다양한 문서를 Markdown으로 변환하는 Python 도구

'IT 소식 > 오픈소스' 카테고리의 다른 글

+ Recent posts

티스토리툴바