X-AnyLabeling은 이미지/비디오 데이터에 대해 AI 보조 자동 라벨링을 지원하는 강력한 어노테이션(라벨링) 도구입니다. Segment Anything(SAM) 계열 모델을 포함해 다양한 모델을 붙여서 검출·분할·포즈·추적·OCR·VLM 작업까지 폭넓게 다룰 수 있는 “올인원 라벨링 워크벤치”에 가깝습니다.

핵심 특징 한눈에 보기

  • Auto-Labeling / Auto-Training 흐름을 지원해 반복 라벨링 시간을 크게 절약
  • 다양한 어노테이션 도형(폴리곤/사각형/회전박스/원/포인트 등)과 편의 기능(예: 브러시 폴리곤, 마스크 반투명 표시, 비교 뷰) 제공
  • 모델 연동 폭이 넓음: YOLO 계열(검출/분할/포즈/회전검출), SAM 1/2/3(세그멘테이션), 추적(ByteTrack 등), OCR(PaddleOCR 계열), 멀티모달/VLM(예: Qwen 계열, ChatGPT 등)까지 “모델 주(動) + 라벨러(靜)” 조합이 가능
  • 이미지뿐 아니라 비디오 기반 검출·분할·트래킹 워크플로도 예시로 제공

함께 보면 좋은 구성: X-AnyLabeling-Server

로컬에서 모델을 돌리는 것뿐 아니라, 원격 추론(서버) 방식으로도 확장할 수 있게 별도 서버 프로젝트(X-AnyLabeling-Server)를 제공합니다. “가볍게 띄우고, 플러그인처럼 모델을 붙이는” 컨셉이라 팀 단위 운영에도 어울립니다.

 

https://github.com/CVHub520/X-AnyLabeling

 

GitHub - CVHub520/X-AnyLabeling: Effortless data labeling with AI support from Segment Anything and other awesome models.

Effortless data labeling with AI support from Segment Anything and other awesome models. - CVHub520/X-AnyLabeling

github.com

 

https://github.com/CVHub520/X-AnyLabeling-Server

 

GitHub - CVHub520/X-AnyLabeling-Server: A Simple, Lightweight, and Extensible Serving Framework for X-AnyLabeling

A Simple, Lightweight, and Extensible Serving Framework for X-AnyLabeling - CVHub520/X-AnyLabeling-Server

github.com

 

교육
 
반응형

 

 

CodexBar는 macOS(14+ Sonoma) 메뉴바에 작은 아이콘을 띄워서 OpenAI Codex, Claude, Cursor, Gemini, Copilot, OpenRouter 등 여러 AI 코딩/에이전트 도구의 세션·주간 한도(및 리셋 시간)를 실시간으로 확인할 수 있게 해주는 오픈소스 앱입니다. 작업하다가 “갑자기 제한 걸려서 끊기는 상황”을 줄이는 데 딱 좋아요. 

 

 

핵심 포인트

 

  • 프로바이더별 한도/리셋 카운트다운 표시(필요한 것만 설정에서 켜기) 
  • 메뉴바 전용: Dock 아이콘 없이 미니멀 UI, 프로바이더별 아이콘(또는 아이콘 합치기 모드) 
  • 일부 서비스는 브라우저 쿠키/ OAuth / 로컬 CLI 등을 통해 사용량을 가져오고, 쿠키가 없으면 로컬 CLI 기반으로 동작하기도 합니다. 
  • Linux는 CLI 중심으로도 제공됩니다. 

 

 

설치 방법(간단)

 

  • Homebrew(추천): brew install --cask steipete/tap/codexbar 
  • 또는 GitHub Releases에서 다운로드 후 실행 

 

여러 AI 도구를 병행하는 분이라면, “오늘은 어디까지 써도 안전한지”를 메뉴바에서 바로 확인할 수 있어서 생산성이 꽤 올라갑니다. 

 

https://github.com/steipete/CodexBar

 
반응형

 

 

Zvec는 애플리케이션 내부에 직접 임베딩해서 쓰는(in-process) 오픈소스 벡터 데이터베이스입니다. 별도 서버 구성이나 복잡한 설정 없이, 코드에 라이브러리로 붙여 저지연 유사도 검색을 빠르게 구현하는 데 초점을 맞췄어요. 

 

특징은 크게 4가지로 정리됩니다.

 

  • 초고속 검색: 대규모 벡터도 밀리초 단위 검색을 지향 
  • 간편한 사용성: “서버/설정 없이” 설치 후 바로 사용 
  • Dense + Sparse + Hybrid: 밀집/희소 벡터 모두 지원하고, 구조화 필터와 결합한 하이브리드 검색을 지원 
  • 어디서나 실행: 노트북/서버/CLI/엣지 등 코드가 돌아가는 곳에서 그대로 동작 

 

설치는 Python(3.10~3.12) 기준 pip install zvec, Node.jsnpm install @zvec/zvec 형태로 제공되며, 공식적으로 Linux(x86_64, ARM64)와 macOS(ARM64) 지원을 안내하고 있습니다. 라이선스는 Apache-2.0입니다. 

 

RAG, 추천, 검색 고도화처럼 “벡터 검색이 필요하지만 인프라를 무겁게 가져가고 싶지 않은” 상황에서, 가볍게 붙여서 빠르게 성능을 내는 선택지로 살펴볼 만한 프로젝트입니다.

 

https://github.com/alibaba/zvec

 

GitHub - alibaba/zvec: A lightweight, lightning-fast, in-process vector database

A lightweight, lightning-fast, in-process vector database - alibaba/zvec

github.com

 

반응형

 

 

GLM-OCR은 단순 텍스트 추출을 넘어 레이아웃·표·수식까지 포함한 복잡 문서를 구조화해주는 멀티모달 OCR 모델입니다. GLM-V 인코더–디코더 구조를 기반으로, CogViT 비전 인코더 + 경량 크로스모달 커넥터 + GLM-0.5B 언어 디코더를 사용하며, 문서 레이아웃 분석(PP-DocLayout-V3) + 영역별 병렬 인식 2단 파이프라인으로 품질을 끌어올린 것이 특징이에요.

  • 성능 포인트: OmniDocBench V1.5에서 94.62 점으로 #1을 달성했다고 소개합니다(표/수식/정보추출 등 포함).
  • 입출력/언어: PDF·이미지(JPG/PNG)를 입력으로 받고(최대 100페이지 지원), 결과는 텍스트/MD/구조화 출력 형태로 제공합니다. 한국어 포함 다국어 지원도 명시돼 있어요.
  • 빠른 사용 방법 3가지
    1. 클라우드 API(MaaS): GPU 없이 API 키로 바로 사용
    2. 자가호스팅(vLLM/SGLang): 로컬 서버로 운영(고동시성/엣지에 유리)
    3. Ollama/MLX: 특수 환경(예: Apple Silicon) 배포 가이드 제공
  • SDK/도구: CLI(glmocr parse ...)와 Python API, Flask 서비스까지 포함되어 “문서 → Markdown + JSON” 파이프라인을 손쉽게 붙일 수 있게 구성돼 있습니다.
  • 라이선스 참고: 저장소 코드는 Apache-2.0, 모델은 MIT로 안내되며, 레이아웃 분석에 PP-DocLayoutV3를 통합하므로 관련 라이선스도 함께 준수해야 합니다.

추천 활용처: 문서 RAG 전처리, 영수증/청구서 자동 입력, 표/수식 데이터화, 코드/기술문서 OCR 등 “문서 이해”가 필요한 자동화에 특히 잘 맞습니다.

 

반응형

 

 

claude-skills는 Claude Code에서 사용할 수 있는 플러그인(스킬 모음)으로, 백엔드·프론트엔드·인프라·보안·테스트·DevOps 등 개발 전 영역에서 “상황에 맞는 전문가 역할”을 자동으로 불러오게 해주는 프로젝트입니다.

뭐가 좋은가? 

  • 66개 스킬 + 9개 워크플로우로 구성되어, 언어/프레임워크/운영/보안/데이터 등 다양한 작업을 역할 기반으로 처리합니다.
  • “점진적 공개(Progressive Disclosure)” 구조를 강조해, 짧은 핵심 스킬에서 시작해 필요할 때만 참고 자료를 로드하는 방식으로 설계되어 있습니다.
  • 프로젝트 단위 작업은 Jira/Confluence 연동 워크플로우 커맨드로 “디스커버리 → 계획 → 실행 → 회고” 흐름을 문서/결정의 체인으로 남기도록 돕습니다.

https://github.com/Jeffallan/claude-skills

 

GitHub - Jeffallan/claude-skills: 66 Specialized Skills for Full-Stack Developers. Transform Claude Code into your expert pair p

66 Specialized Skills for Full-Stack Developers. Transform Claude Code into your expert pair programmer. - Jeffallan/claude-skills

github.com

 

반응형

Paper2Slides는 연구 논문, 보고서 등 각종 문서를 입력하면 전문적인 슬라이드와 포스터를 빠르게 생성해주는 도구입니다.

핵심 포인트

  • 다양한 파일 형식 지원: PDF, Word, Excel, PowerPoint, Markdown 등 여러 문서를 한 번에 처리할 수 있어요.
  • RAG 기반 정밀 추출: 문서의 핵심 내용뿐 아니라 그림/표/데이터 포인트까지 놓치지 않도록 설계됐습니다.
  • 출처 추적(소스 링크) 강조: 생성된 내용이 원문과 연결되도록 “드리프트”를 줄이는 방향을 내세웁니다.
  • 스타일 커스터마이징: academic, doraemon 같은 기본 테마 + 자연어로 원하는 스타일을 설명해 커스텀도 가능.
  • 체크포인트/재개 기능: RAG→분석→기획→생성의 4단계 파이프라인을 진행하며 단계별로 저장해, 중단돼도 이어서 돌리기 좋습니다.
  • 빠른 모드 & 병렬 생성: --fast로 RAG 인덱싱을 건너뛰어 빠르게 미리보기/수정 가능하고, --parallel로 속도를 더 끌어올릴 수 있어요.
  • 웹 UI 제공: 로컬에서 백엔드/프론트를 띄워 웹 화면으로도 사용할 수 있습니다(기본 http://localhost:5173).
  • MIT 라이선스 오픈소스로 공개되어 있어요.

https://github.com/HKUDS/Paper2Slides

반응형

 

 

oh-my-claudecode는 Claude Code에서 여러 전문 에이전트를 자동으로 오케스트레이션해, “그냥 자연어로 시키면” 병렬/순차 실행까지 알아서 처리해주는 도구입니다. 설정 부담을 최소화한 Zero learning curve를 내세우는 게 핵심이에요.

뭐가 좋은데? (핵심 포인트)

  • 5가지 실행 모드로 상황에 맞게 수행: Autopilot(자율), Ultrapilot(3~5배 병렬), Ecomode(토큰 절감), Swarm(협업), Pipeline(순차 체인)
  • 32개 전문 에이전트가 아키텍처/리서치/디자인/테스트 등 역할 분담, 작업을 자동 분배
  • 매직 키워드로 빠른 제어: autopilot, ralph, ulw, eco, plan 등(자연어만 써도 동작)
  • 레이트리밋 대응 유틸(omc wait) 등 운영 편의 기능도 포함

https://github.com/Yeachan-Heo/oh-my-claudecode

 

GitHub - Yeachan-Heo/oh-my-claudecode: Multi-agent orchestration for Claude Code with 5 execution modes: Autopilot (autonomous),

Multi-agent orchestration for Claude Code with 5 execution modes: Autopilot (autonomous), Ultrapilot (3-5x parallel), Swarm (coordinated agents), Pipeline (sequential chains), Ecomode (token-effici...

github.com

 

반응형

 

 

Clawdbot은 사용자가 직접 자신의 장치에서 구동하는 개인 AI 어시스턴트 오픈소스 프로젝트입니다.

이 프로젝트는 Node.js 기반으로 개발되었으며, WhatsApp, Telegram, Slack, Discord, Signal, iMessage, Microsoft Teams 등 여러분이 이미 쓰는 메신저/커뮤니케이션 채널과 연결됩니다.

Clawdbot의 주요 특징은 다음과 같습니다:

  • 자체 호스팅 AI 비서로 로컬 기기에서 직접 운영 가능
  • 다양한 채널(메신저/채팅)에서 메시지를 받고 답변
  • 음성 입력/출력 지원 및 캘린더, 이메일 등 생산성 도구와 연동 가능
  • 확장 가능한 스킬/플러그인 구조로 기능 추가 가능

또한 CLI 설치 마법사(onboard)를 통해 설치 및 설정을 쉽게 진행할 수 있고, macOS/Linux/Windows 환경을 모두 지원합니다.

Clawdbot은 MIT 오픈소스 라이선스로 공개되어 누구나 자유롭게 활용하거나 확장할 수 있습니다.

 

반응형

+ Recent posts