X-AnyLabeling은 이미지/비디오 데이터에 대해 AI 보조 자동 라벨링을 지원하는 강력한 어노테이션(라벨링) 도구입니다. Segment Anything(SAM) 계열 모델을 포함해 다양한 모델을 붙여서 검출·분할·포즈·추적·OCR·VLM 작업까지 폭넓게 다룰 수 있는 “올인원 라벨링 워크벤치”에 가깝습니다.

핵심 특징 한눈에 보기

  • Auto-Labeling / Auto-Training 흐름을 지원해 반복 라벨링 시간을 크게 절약
  • 다양한 어노테이션 도형(폴리곤/사각형/회전박스/원/포인트 등)과 편의 기능(예: 브러시 폴리곤, 마스크 반투명 표시, 비교 뷰) 제공
  • 모델 연동 폭이 넓음: YOLO 계열(검출/분할/포즈/회전검출), SAM 1/2/3(세그멘테이션), 추적(ByteTrack 등), OCR(PaddleOCR 계열), 멀티모달/VLM(예: Qwen 계열, ChatGPT 등)까지 “모델 주(動) + 라벨러(靜)” 조합이 가능
  • 이미지뿐 아니라 비디오 기반 검출·분할·트래킹 워크플로도 예시로 제공

함께 보면 좋은 구성: X-AnyLabeling-Server

로컬에서 모델을 돌리는 것뿐 아니라, 원격 추론(서버) 방식으로도 확장할 수 있게 별도 서버 프로젝트(X-AnyLabeling-Server)를 제공합니다. “가볍게 띄우고, 플러그인처럼 모델을 붙이는” 컨셉이라 팀 단위 운영에도 어울립니다.

 

https://github.com/CVHub520/X-AnyLabeling

 

GitHub - CVHub520/X-AnyLabeling: Effortless data labeling with AI support from Segment Anything and other awesome models.

Effortless data labeling with AI support from Segment Anything and other awesome models. - CVHub520/X-AnyLabeling

github.com

 

https://github.com/CVHub520/X-AnyLabeling-Server

 

GitHub - CVHub520/X-AnyLabeling-Server: A Simple, Lightweight, and Extensible Serving Framework for X-AnyLabeling

A Simple, Lightweight, and Extensible Serving Framework for X-AnyLabeling - CVHub520/X-AnyLabeling-Server

github.com

 

교육
 
반응형

 

 

GLM-OCR은 단순 텍스트 추출을 넘어 레이아웃·표·수식까지 포함한 복잡 문서를 구조화해주는 멀티모달 OCR 모델입니다. GLM-V 인코더–디코더 구조를 기반으로, CogViT 비전 인코더 + 경량 크로스모달 커넥터 + GLM-0.5B 언어 디코더를 사용하며, 문서 레이아웃 분석(PP-DocLayout-V3) + 영역별 병렬 인식 2단 파이프라인으로 품질을 끌어올린 것이 특징이에요.

  • 성능 포인트: OmniDocBench V1.5에서 94.62 점으로 #1을 달성했다고 소개합니다(표/수식/정보추출 등 포함).
  • 입출력/언어: PDF·이미지(JPG/PNG)를 입력으로 받고(최대 100페이지 지원), 결과는 텍스트/MD/구조화 출력 형태로 제공합니다. 한국어 포함 다국어 지원도 명시돼 있어요.
  • 빠른 사용 방법 3가지
    1. 클라우드 API(MaaS): GPU 없이 API 키로 바로 사용
    2. 자가호스팅(vLLM/SGLang): 로컬 서버로 운영(고동시성/엣지에 유리)
    3. Ollama/MLX: 특수 환경(예: Apple Silicon) 배포 가이드 제공
  • SDK/도구: CLI(glmocr parse ...)와 Python API, Flask 서비스까지 포함되어 “문서 → Markdown + JSON” 파이프라인을 손쉽게 붙일 수 있게 구성돼 있습니다.
  • 라이선스 참고: 저장소 코드는 Apache-2.0, 모델은 MIT로 안내되며, 레이아웃 분석에 PP-DocLayoutV3를 통합하므로 관련 라이선스도 함께 준수해야 합니다.

추천 활용처: 문서 RAG 전처리, 영수증/청구서 자동 입력, 표/수식 데이터화, 코드/기술문서 OCR 등 “문서 이해”가 필요한 자동화에 특히 잘 맞습니다.

 

반응형

 

 

claude-skills는 Claude Code에서 사용할 수 있는 플러그인(스킬 모음)으로, 백엔드·프론트엔드·인프라·보안·테스트·DevOps 등 개발 전 영역에서 “상황에 맞는 전문가 역할”을 자동으로 불러오게 해주는 프로젝트입니다.

뭐가 좋은가? 

  • 66개 스킬 + 9개 워크플로우로 구성되어, 언어/프레임워크/운영/보안/데이터 등 다양한 작업을 역할 기반으로 처리합니다.
  • “점진적 공개(Progressive Disclosure)” 구조를 강조해, 짧은 핵심 스킬에서 시작해 필요할 때만 참고 자료를 로드하는 방식으로 설계되어 있습니다.
  • 프로젝트 단위 작업은 Jira/Confluence 연동 워크플로우 커맨드로 “디스커버리 → 계획 → 실행 → 회고” 흐름을 문서/결정의 체인으로 남기도록 돕습니다.

https://github.com/Jeffallan/claude-skills

 

GitHub - Jeffallan/claude-skills: 66 Specialized Skills for Full-Stack Developers. Transform Claude Code into your expert pair p

66 Specialized Skills for Full-Stack Developers. Transform Claude Code into your expert pair programmer. - Jeffallan/claude-skills

github.com

 

반응형

 

 

oh-my-claudecode는 Claude Code에서 여러 전문 에이전트를 자동으로 오케스트레이션해, “그냥 자연어로 시키면” 병렬/순차 실행까지 알아서 처리해주는 도구입니다. 설정 부담을 최소화한 Zero learning curve를 내세우는 게 핵심이에요.

뭐가 좋은데? (핵심 포인트)

  • 5가지 실행 모드로 상황에 맞게 수행: Autopilot(자율), Ultrapilot(3~5배 병렬), Ecomode(토큰 절감), Swarm(협업), Pipeline(순차 체인)
  • 32개 전문 에이전트가 아키텍처/리서치/디자인/테스트 등 역할 분담, 작업을 자동 분배
  • 매직 키워드로 빠른 제어: autopilot, ralph, ulw, eco, plan 등(자연어만 써도 동작)
  • 레이트리밋 대응 유틸(omc wait) 등 운영 편의 기능도 포함

https://github.com/Yeachan-Heo/oh-my-claudecode

 

GitHub - Yeachan-Heo/oh-my-claudecode: Multi-agent orchestration for Claude Code with 5 execution modes: Autopilot (autonomous),

Multi-agent orchestration for Claude Code with 5 execution modes: Autopilot (autonomous), Ultrapilot (3-5x parallel), Swarm (coordinated agents), Pipeline (sequential chains), Ecomode (token-effici...

github.com

 

반응형

 

 

Clawdbot은 사용자가 직접 자신의 장치에서 구동하는 개인 AI 어시스턴트 오픈소스 프로젝트입니다.

이 프로젝트는 Node.js 기반으로 개발되었으며, WhatsApp, Telegram, Slack, Discord, Signal, iMessage, Microsoft Teams 등 여러분이 이미 쓰는 메신저/커뮤니케이션 채널과 연결됩니다.

Clawdbot의 주요 특징은 다음과 같습니다:

  • 자체 호스팅 AI 비서로 로컬 기기에서 직접 운영 가능
  • 다양한 채널(메신저/채팅)에서 메시지를 받고 답변
  • 음성 입력/출력 지원 및 캘린더, 이메일 등 생산성 도구와 연동 가능
  • 확장 가능한 스킬/플러그인 구조로 기능 추가 가능

또한 CLI 설치 마법사(onboard)를 통해 설치 및 설정을 쉽게 진행할 수 있고, macOS/Linux/Windows 환경을 모두 지원합니다.

Clawdbot은 MIT 오픈소스 라이선스로 공개되어 누구나 자유롭게 활용하거나 확장할 수 있습니다.

 

반응형

Supertonic은 텍스트를 음성으로 빠르게 변환해 주는 오픈소스 TTS(Text‑to‑Speech) 시스템입니다. Supertone Inc.가 개발했으며, 클라우드나 서버 연동 없이 사용자 기기에서 직접 음성을 생성하는 것이 큰 특징이에요. 

 

 

🧠 핵심 특징

 

  • 🔥 초속도 음성 합성: 일반 하드웨어에서 실시간보다 최대 167배 빠른 성능을 보여줍니다. 
  • 📱 완전한 온디바이스 처리: 모든 음성 생성이 로컬에서 이루어져 프라이버시제로 대기시간을 보장합니다. 
  • 🪶 가벼운 구조: 전체 모델이 약 66M 파라미터로 경량이라 모바일, 엣지 기기에서도 실행 가능해요. 
  • 🌐 다양한 환경 지원: Python, Node.js, C++, Java, Swift, Flutter, 브라우저 등 여러 플랫폼에서 활용할 수 있습니다. 
  • 📦 오픈소스 공개: GitHub에 소스 코드가 공개되어 누구나 자유롭게 사용, 수정, 배포가 가능합니다. 

 

 

💡 왜 주목받나?

Supertonic은 클라우드 비중 없이 로컬에서 AI 음성 기능을 구현할 수 있어, 음성 비서, 읽어주기 기능, 오프라인 앱 등 프라이버시 중심의 제품에 적합합니다.

https://github.com/supertone-inc/supertonic/

 

GitHub - supertone-inc/supertonic: Lightning-Fast, On-Device, Multilingual TTS — running natively via ONNX.

Lightning-Fast, On-Device, Multilingual TTS — running natively via ONNX. - supertone-inc/supertonic

github.com

 

반응형

Docling은 다양한 문서 형식을 쉽게 처리하고, 생성형 AI와 연동할 수 있도록 돕는 오픈소스 프로젝트입니다. PDF, DOCX, PPTX, XLSX, HTML뿐만 아니라 이미지와 오디오 파일까지 지원하며, 고급 PDF 분석 기능을 통해 표, 코드, 수식, 레이아웃까지 이해할 수 있습니다.

 

또한 문서를 Markdown, HTML, JSON 등 여러 형식으로 변환할 수 있으며, LangChain, LlamaIndex, Haystack 같은 AI 프레임워크와도 손쉽게 통합할 수 있습니다. 로컬 실행도 가능해 보안이 중요한 환경에서도 활용할 수 있다는 점이 특징입니다.

 

https://github.com/docling-project/docling

 

GitHub - docling-project/docling: Get your documents ready for gen AI

Get your documents ready for gen AI. Contribute to docling-project/docling development by creating an account on GitHub.

github.com

 

반응형

peRAG는 프로덕션 환경에서도 안정적으로 사용할 수 있는 RAG(Retrieval-Augmented Generation) 플랫폼입니다. 그래프 기반 RAG, 벡터 검색, 풀텍스트 검색을 결합하여 지능형 AI 애플리케이션을 구축할 수 있습니다.

 

주요 특징은 다음과 같습니다:

 

  • 멀티모달 문서 처리 지원
  • AI 에이전트를 통한 지능적 검색과 추론
  • MCP(Model Context Protocol) 연동으로 지식 베이스와 직접 상호작용
  • 쿠버네티스 배포를 통한 확장성과 안정성

 

간단히 Docker Compose로 실행할 수 있으며, 웹 인터페이스와 API 문서를 바로 확인할 수 있습니다.

 

https://rag.apecloud.com/

 

ApeRAG

Production-Ready RAG Platform with Graph, Vector & Full-Text Search ApeRAG is a production-ready RAG (Retrieval-Augmented Generation) platform that combines Graph RAG, vector search, and full-text search. Build sophisticated AI applications with hybrid ret

rag.apecloud.com

 

반응형

+ Recent posts