'vlm' 태그의 글 목록

vlm

AI로 빠르게 라벨링하는 오픈소스 툴, X-AnyLabeling 소개 2026.02.27
GLM-OCR: “작지만 강한” 문서 이해형 OCR 오픈소스 2026.02.12
Docling: 문서 처리를 위한 오픈소스 AI 도구 2025.09.22
ScreenCoder: UI 스크린샷을 HTML/CSS 코드로 자동 변환하는 모듈형 AI 시스템 2025.08.06
초고속 LLM 및 비전 모델 서빙 프레임워크, SGLang 2025.03.07

AI로 빠르게 라벨링하는 오픈소스 툴, X-AnyLabeling 소개

화니. 2026. 2. 27. 23:15

2026. 2. 27. 23:15

X-AnyLabeling은 이미지/비디오 데이터에 대해 AI 보조 자동 라벨링을 지원하는 강력한 어노테이션(라벨링) 도구입니다. Segment Anything(SAM) 계열 모델을 포함해 다양한 모델을 붙여서 검출·분할·포즈·추적·OCR·VLM 작업까지 폭넓게 다룰 수 있는 “올인원 라벨링 워크벤치”에 가깝습니다.

핵심 특징 한눈에 보기

Auto-Labeling / Auto-Training 흐름을 지원해 반복 라벨링 시간을 크게 절약
다양한 어노테이션 도형(폴리곤/사각형/회전박스/원/포인트 등)과 편의 기능(예: 브러시 폴리곤, 마스크 반투명 표시, 비교 뷰) 제공
모델 연동 폭이 넓음: YOLO 계열(검출/분할/포즈/회전검출), SAM 1/2/3(세그멘테이션), 추적(ByteTrack 등), OCR(PaddleOCR 계열), 멀티모달/VLM(예: Qwen 계열, ChatGPT 등)까지 “모델 주(動) + 라벨러(靜)” 조합이 가능
이미지뿐 아니라 비디오 기반 검출·분할·트래킹 워크플로도 예시로 제공

함께 보면 좋은 구성: X-AnyLabeling-Server

로컬에서 모델을 돌리는 것뿐 아니라, 원격 추론(서버) 방식으로도 확장할 수 있게 별도 서버 프로젝트(X-AnyLabeling-Server)를 제공합니다. “가볍게 띄우고, 플러그인처럼 모델을 붙이는” 컨셉이라 팀 단위 운영에도 어울립니다.

https://github.com/CVHub520/X-AnyLabeling

GitHub - CVHub520/X-AnyLabeling: Effortless data labeling with AI support from Segment Anything and other awesome models.

Effortless data labeling with AI support from Segment Anything and other awesome models. - CVHub520/X-AnyLabeling

github.com

https://github.com/CVHub520/X-AnyLabeling-Server

GitHub - CVHub520/X-AnyLabeling-Server: A Simple, Lightweight, and Extensible Serving Framework for X-AnyLabeling

A Simple, Lightweight, and Extensible Serving Framework for X-AnyLabeling - CVHub520/X-AnyLabeling-Server

github.com

교육

'IT 소식 > AI' 카테고리의 다른 글

LiteLLM 소개: 100개 이상의 LLM을 하나의 OpenAI 형식으로 연결하는 통합 게이트웨이 (0)	2026.03.10
GLM-OCR: “작지만 강한” 문서 이해형 OCR 오픈소스 (0)	2026.02.12
Claude Code를 “풀스택 페어 프로그래머”로 바꾸는 플러그인: Jeffallan/claude-skills (0)	2026.02.12

GLM-OCR: “작지만 강한” 문서 이해형 OCR 오픈소스

화니. 2026. 2. 12. 09:55

2026. 2. 12. 09:55

GLM-OCR은 단순 텍스트 추출을 넘어 레이아웃·표·수식까지 포함한 복잡 문서를 구조화해주는 멀티모달 OCR 모델입니다. GLM-V 인코더–디코더 구조를 기반으로, CogViT 비전 인코더 + 경량 크로스모달 커넥터 + GLM-0.5B 언어 디코더를 사용하며, 문서 레이아웃 분석(PP-DocLayout-V3) + 영역별 병렬 인식 2단 파이프라인으로 품질을 끌어올린 것이 특징이에요.

성능 포인트: OmniDocBench V1.5에서 94.62 점으로 #1을 달성했다고 소개합니다(표/수식/정보추출 등 포함).
입출력/언어: PDF·이미지(JPG/PNG)를 입력으로 받고(최대 100페이지 지원), 결과는 텍스트/MD/구조화 출력 형태로 제공합니다. 한국어 포함 다국어 지원도 명시돼 있어요.
빠른 사용 방법 3가지
1. 클라우드 API(MaaS): GPU 없이 API 키로 바로 사용
2. 자가호스팅(vLLM/SGLang): 로컬 서버로 운영(고동시성/엣지에 유리)
3. Ollama/MLX: 특수 환경(예: Apple Silicon) 배포 가이드 제공
SDK/도구: CLI(glmocr parse ...)와 Python API, Flask 서비스까지 포함되어 “문서 → Markdown + JSON” 파이프라인을 손쉽게 붙일 수 있게 구성돼 있습니다.
라이선스 참고: 저장소 코드는 Apache-2.0, 모델은 MIT로 안내되며, 레이아웃 분석에 PP-DocLayoutV3를 통합하므로 관련 라이선스도 함께 준수해야 합니다.

추천 활용처: 문서 RAG 전처리, 영수증/청구서 자동 입력, 표/수식 데이터화, 코드/기술문서 OCR 등 “문서 이해”가 필요한 자동화에 특히 잘 맞습니다.

https://github.com/zai-org/GLM-OCR

GitHub - zai-org/GLM-OCR: GLM-OCR: Accurate × Fast × Comprehensive

GLM-OCR: Accurate × Fast × Comprehensive. Contribute to zai-org/GLM-OCR development by creating an account on GitHub.

github.com

'IT 소식 > AI' 카테고리의 다른 글

AI로 빠르게 라벨링하는 오픈소스 툴, X-AnyLabeling 소개 (0)	2026.02.27
Claude Code를 “풀스택 페어 프로그래머”로 바꾸는 플러그인: Jeffallan/claude-skills (0)	2026.02.12
Claude Code를 “멀티 에이전트”로 강화하는 플러그인, oh-my-claudecode(OMC) 소개 (0)	2026.01.30

Docling: 문서 처리를 위한 오픈소스 AI 도구

화니. 2025. 9. 22. 20:13

2025. 9. 22. 20:13

Docling은 다양한 문서 형식을 쉽게 처리하고, 생성형 AI와 연동할 수 있도록 돕는 오픈소스 프로젝트입니다. PDF, DOCX, PPTX, XLSX, HTML뿐만 아니라 이미지와 오디오 파일까지 지원하며, 고급 PDF 분석 기능을 통해 표, 코드, 수식, 레이아웃까지 이해할 수 있습니다.

또한 문서를 Markdown, HTML, JSON 등 여러 형식으로 변환할 수 있으며, LangChain, LlamaIndex, Haystack 같은 AI 프레임워크와도 손쉽게 통합할 수 있습니다. 로컬 실행도 가능해 보안이 중요한 환경에서도 활용할 수 있다는 점이 특징입니다.

https://github.com/docling-project/docling

GitHub - docling-project/docling: Get your documents ready for gen AI

Get your documents ready for gen AI. Contribute to docling-project/docling development by creating an account on GitHub.

github.com

'IT 소식 > AI' 카테고리의 다른 글

Supertonic — 초고속 온디바이스 TTS (0)	2026.01.09
ApeRAG: 지식 그래프 기반 RAG 플랫폼으로 차세대 AI 애플리케이션 구축하기 (0)	2025.09.16
ScreenCoder: UI 스크린샷을 HTML/CSS 코드로 자동 변환하는 모듈형 AI 시스템 (0)	2025.08.06

ScreenCoder: UI 스크린샷을 HTML/CSS 코드로 자동 변환하는 모듈형 AI 시스템

화니. 2025. 8. 6. 15:24

2025. 8. 6. 15:24

ScreenCoder는 UI 스크린샷이나 디자인 모형을 분석해 깨끗하고 생산성 높은 HTML/CSS 코드로 자동 변환해주는 오픈소스 프로젝트입니다  .

이 시스템은 세 단계 모듈형 구조로 구성되어 있습니다:
• Grounding Agent (시각 인식 엔진): VLM 기반으로 화면의 버튼, 네비게이션, 텍스트 박스 등 UI 요소를 감지하고 라벨링합니다   .
• Planning Agent (레이아웃 계획 엔진): 감지된 요소를 바탕으로 계층적 레이아웃 구조를 생성하고 CSS Grid 또는 Tailwind 스타일 레이아웃으로 변환합니다  .
• Generation Agent (코드 생성 엔진): adaptive prompt 기반으로 HTML/CSS 코드를 생성하여 디자인을 재현하며, 구조화되고 확장 가능하게 구성됩니다  .

또한 ScreenCoder는 자체적으로 대규모 이미지‑코드 쌍 합성 엔진을 갖추고 있어, 사전 훈련된 VLM을 지도 학습 및 강화 학습 방식으로 미세조정해 코드 품질과 UI 이해도를 크게 향상시킵니다

https://github.com/leigest519/ScreenCoder

GitHub - leigest519/ScreenCoder: ScreenCoder — Turn any UI screenshot into clean, editable HTML/CSS with full control. Fast, a

ScreenCoder — Turn any UI screenshot into clean, editable HTML/CSS with full control. Fast, accurate, and easy to customize. - leigest519/ScreenCoder

github.com

'IT 소식 > AI' 카테고리의 다른 글

ApeRAG: 지식 그래프 기반 RAG 플랫폼으로 차세대 AI 애플리케이션 구축하기 (0)	2025.09.16
스마트폰에서 직접 AI 구동하기: ‘Cactus’ 프레임워크 소개 (0)	2025.07.11
Chatterbox TTS — 오픈소스 최고 수준의 감정 제어 음성 합성 모델 (2)	2025.06.12

초고속 LLM 및 비전 모델 서빙 프레임워크, SGLang

화니. 2025. 3. 7. 23:27

2025. 3. 7. 23:27

SGLang은 대형 언어 모델(LLM)과 비전 언어 모델(VLM)을 빠르게 서빙할 수 있는 프레임워크입니다. 백엔드 런타임과 프론트엔드 언어를 함께 설계하여 모델과의 상호작용을 더욱 빠르고 효율적으로 만듭니다.

✅ 핵심 기능

• RadixAttention을 활용한 프리픽스 캐싱

• 오버헤드 없는 CPU 스케줄러

• 연속 배칭 및 토큰 주의(Paged Attention)

• DeepSeek V3/R1 모델 지원 (NVIDIA & AMD GPU 최적화)

• JSON 디코딩 속도 3배 향상

SGLang은 LLaMA, DeepSeek 등 다양한 최신 모델을 빠르게 서빙할 수 있도록 지원하며, 지속적인 업데이트를 통해 성능을 개선하고 있습니다.

https://github.com/sgl-project/sglang

'IT 소식 > AI' 카테고리의 다른 글

RLAMA – 로컬 문서 기반 Q&A 시스템 (0)	2025.03.08
Salesforce Merlion – 시계열 분석을 위한 오픈소스 라이브러리 (1)	2025.03.02
Open WebUI – 오픈소스 AI 챗봇 웹 인터페이스 (0)	2025.02.06

PREV 이전 1 NEXT 다음

화니의 세상

vlm

AI로 빠르게 라벨링하는 오픈소스 툴, X-AnyLabeling 소개

핵심 특징 한눈에 보기

함께 보면 좋은 구성: X-AnyLabeling-Server

'IT 소식 > AI' 카테고리의 다른 글

GLM-OCR: “작지만 강한” 문서 이해형 OCR 오픈소스

'IT 소식 > AI' 카테고리의 다른 글

Docling: 문서 처리를 위한 오픈소스 AI 도구

'IT 소식 > AI' 카테고리의 다른 글

ScreenCoder: UI 스크린샷을 HTML/CSS 코드로 자동 변환하는 모듈형 AI 시스템

'IT 소식 > AI' 카테고리의 다른 글

초고속 LLM 및 비전 모델 서빙 프레임워크, SGLang

'IT 소식 > AI' 카테고리의 다른 글

+ Recent posts

티스토리툴바