GLM-OCR은 단순 텍스트 추출을 넘어 레이아웃·표·수식까지 포함한 복잡 문서를 구조화해주는 멀티모달 OCR 모델입니다. GLM-V 인코더–디코더 구조를 기반으로, CogViT 비전 인코더 + 경량 크로스모달 커넥터 + GLM-0.5B 언어 디코더를 사용하며, 문서 레이아웃 분석(PP-DocLayout-V3) + 영역별 병렬 인식 2단 파이프라인으로 품질을 끌어올린 것이 특징이에요.

  • 성능 포인트: OmniDocBench V1.5에서 94.62 점으로 #1을 달성했다고 소개합니다(표/수식/정보추출 등 포함).
  • 입출력/언어: PDF·이미지(JPG/PNG)를 입력으로 받고(최대 100페이지 지원), 결과는 텍스트/MD/구조화 출력 형태로 제공합니다. 한국어 포함 다국어 지원도 명시돼 있어요.
  • 빠른 사용 방법 3가지
    1. 클라우드 API(MaaS): GPU 없이 API 키로 바로 사용
    2. 자가호스팅(vLLM/SGLang): 로컬 서버로 운영(고동시성/엣지에 유리)
    3. Ollama/MLX: 특수 환경(예: Apple Silicon) 배포 가이드 제공
  • SDK/도구: CLI(glmocr parse ...)와 Python API, Flask 서비스까지 포함되어 “문서 → Markdown + JSON” 파이프라인을 손쉽게 붙일 수 있게 구성돼 있습니다.
  • 라이선스 참고: 저장소 코드는 Apache-2.0, 모델은 MIT로 안내되며, 레이아웃 분석에 PP-DocLayoutV3를 통합하므로 관련 라이선스도 함께 준수해야 합니다.

추천 활용처: 문서 RAG 전처리, 영수증/청구서 자동 입력, 표/수식 데이터화, 코드/기술문서 OCR 등 “문서 이해”가 필요한 자동화에 특히 잘 맞습니다.

 

반응형

 

 

claude-skills는 Claude Code에서 사용할 수 있는 플러그인(스킬 모음)으로, 백엔드·프론트엔드·인프라·보안·테스트·DevOps 등 개발 전 영역에서 “상황에 맞는 전문가 역할”을 자동으로 불러오게 해주는 프로젝트입니다.

뭐가 좋은가? 

  • 66개 스킬 + 9개 워크플로우로 구성되어, 언어/프레임워크/운영/보안/데이터 등 다양한 작업을 역할 기반으로 처리합니다.
  • “점진적 공개(Progressive Disclosure)” 구조를 강조해, 짧은 핵심 스킬에서 시작해 필요할 때만 참고 자료를 로드하는 방식으로 설계되어 있습니다.
  • 프로젝트 단위 작업은 Jira/Confluence 연동 워크플로우 커맨드로 “디스커버리 → 계획 → 실행 → 회고” 흐름을 문서/결정의 체인으로 남기도록 돕습니다.

https://github.com/Jeffallan/claude-skills

 

GitHub - Jeffallan/claude-skills: 66 Specialized Skills for Full-Stack Developers. Transform Claude Code into your expert pair p

66 Specialized Skills for Full-Stack Developers. Transform Claude Code into your expert pair programmer. - Jeffallan/claude-skills

github.com

 

반응형

 

 

oh-my-claudecode는 Claude Code에서 여러 전문 에이전트를 자동으로 오케스트레이션해, “그냥 자연어로 시키면” 병렬/순차 실행까지 알아서 처리해주는 도구입니다. 설정 부담을 최소화한 Zero learning curve를 내세우는 게 핵심이에요.

뭐가 좋은데? (핵심 포인트)

  • 5가지 실행 모드로 상황에 맞게 수행: Autopilot(자율), Ultrapilot(3~5배 병렬), Ecomode(토큰 절감), Swarm(협업), Pipeline(순차 체인)
  • 32개 전문 에이전트가 아키텍처/리서치/디자인/테스트 등 역할 분담, 작업을 자동 분배
  • 매직 키워드로 빠른 제어: autopilot, ralph, ulw, eco, plan 등(자연어만 써도 동작)
  • 레이트리밋 대응 유틸(omc wait) 등 운영 편의 기능도 포함

https://github.com/Yeachan-Heo/oh-my-claudecode

 

GitHub - Yeachan-Heo/oh-my-claudecode: Multi-agent orchestration for Claude Code with 5 execution modes: Autopilot (autonomous),

Multi-agent orchestration for Claude Code with 5 execution modes: Autopilot (autonomous), Ultrapilot (3-5x parallel), Swarm (coordinated agents), Pipeline (sequential chains), Ecomode (token-effici...

github.com

 

반응형

 

 

Clawdbot은 사용자가 직접 자신의 장치에서 구동하는 개인 AI 어시스턴트 오픈소스 프로젝트입니다.

이 프로젝트는 Node.js 기반으로 개발되었으며, WhatsApp, Telegram, Slack, Discord, Signal, iMessage, Microsoft Teams 등 여러분이 이미 쓰는 메신저/커뮤니케이션 채널과 연결됩니다.

Clawdbot의 주요 특징은 다음과 같습니다:

  • 자체 호스팅 AI 비서로 로컬 기기에서 직접 운영 가능
  • 다양한 채널(메신저/채팅)에서 메시지를 받고 답변
  • 음성 입력/출력 지원 및 캘린더, 이메일 등 생산성 도구와 연동 가능
  • 확장 가능한 스킬/플러그인 구조로 기능 추가 가능

또한 CLI 설치 마법사(onboard)를 통해 설치 및 설정을 쉽게 진행할 수 있고, macOS/Linux/Windows 환경을 모두 지원합니다.

Clawdbot은 MIT 오픈소스 라이선스로 공개되어 누구나 자유롭게 활용하거나 확장할 수 있습니다.

 

반응형

Supertonic은 텍스트를 음성으로 빠르게 변환해 주는 오픈소스 TTS(Text‑to‑Speech) 시스템입니다. Supertone Inc.가 개발했으며, 클라우드나 서버 연동 없이 사용자 기기에서 직접 음성을 생성하는 것이 큰 특징이에요. 

 

 

🧠 핵심 특징

 

  • 🔥 초속도 음성 합성: 일반 하드웨어에서 실시간보다 최대 167배 빠른 성능을 보여줍니다. 
  • 📱 완전한 온디바이스 처리: 모든 음성 생성이 로컬에서 이루어져 프라이버시제로 대기시간을 보장합니다. 
  • 🪶 가벼운 구조: 전체 모델이 약 66M 파라미터로 경량이라 모바일, 엣지 기기에서도 실행 가능해요. 
  • 🌐 다양한 환경 지원: Python, Node.js, C++, Java, Swift, Flutter, 브라우저 등 여러 플랫폼에서 활용할 수 있습니다. 
  • 📦 오픈소스 공개: GitHub에 소스 코드가 공개되어 누구나 자유롭게 사용, 수정, 배포가 가능합니다. 

 

 

💡 왜 주목받나?

Supertonic은 클라우드 비중 없이 로컬에서 AI 음성 기능을 구현할 수 있어, 음성 비서, 읽어주기 기능, 오프라인 앱 등 프라이버시 중심의 제품에 적합합니다.

https://github.com/supertone-inc/supertonic/

 

GitHub - supertone-inc/supertonic: Lightning-Fast, On-Device, Multilingual TTS — running natively via ONNX.

Lightning-Fast, On-Device, Multilingual TTS — running natively via ONNX. - supertone-inc/supertonic

github.com

 

반응형

Docling은 다양한 문서 형식을 쉽게 처리하고, 생성형 AI와 연동할 수 있도록 돕는 오픈소스 프로젝트입니다. PDF, DOCX, PPTX, XLSX, HTML뿐만 아니라 이미지와 오디오 파일까지 지원하며, 고급 PDF 분석 기능을 통해 표, 코드, 수식, 레이아웃까지 이해할 수 있습니다.

 

또한 문서를 Markdown, HTML, JSON 등 여러 형식으로 변환할 수 있으며, LangChain, LlamaIndex, Haystack 같은 AI 프레임워크와도 손쉽게 통합할 수 있습니다. 로컬 실행도 가능해 보안이 중요한 환경에서도 활용할 수 있다는 점이 특징입니다.

 

https://github.com/docling-project/docling

 

GitHub - docling-project/docling: Get your documents ready for gen AI

Get your documents ready for gen AI. Contribute to docling-project/docling development by creating an account on GitHub.

github.com

 

반응형

peRAG는 프로덕션 환경에서도 안정적으로 사용할 수 있는 RAG(Retrieval-Augmented Generation) 플랫폼입니다. 그래프 기반 RAG, 벡터 검색, 풀텍스트 검색을 결합하여 지능형 AI 애플리케이션을 구축할 수 있습니다.

 

주요 특징은 다음과 같습니다:

 

  • 멀티모달 문서 처리 지원
  • AI 에이전트를 통한 지능적 검색과 추론
  • MCP(Model Context Protocol) 연동으로 지식 베이스와 직접 상호작용
  • 쿠버네티스 배포를 통한 확장성과 안정성

 

간단히 Docker Compose로 실행할 수 있으며, 웹 인터페이스와 API 문서를 바로 확인할 수 있습니다.

 

https://rag.apecloud.com/

 

ApeRAG

Production-Ready RAG Platform with Graph, Vector & Full-Text Search ApeRAG is a production-ready RAG (Retrieval-Augmented Generation) platform that combines Graph RAG, vector search, and full-text search. Build sophisticated AI applications with hybrid ret

rag.apecloud.com

 

반응형

ScreenCoder는 UI 스크린샷이나 디자인 모형을 분석해 깨끗하고 생산성 높은 HTML/CSS 코드로 자동 변환해주는 오픈소스 프로젝트입니다  .

이 시스템은 세 단계 모듈형 구조로 구성되어 있습니다:
• Grounding Agent (시각 인식 엔진): VLM 기반으로 화면의 버튼, 네비게이션, 텍스트 박스 등 UI 요소를 감지하고 라벨링합니다   .
• Planning Agent (레이아웃 계획 엔진): 감지된 요소를 바탕으로 계층적 레이아웃 구조를 생성하고 CSS Grid 또는 Tailwind 스타일 레이아웃으로 변환합니다  .
• Generation Agent (코드 생성 엔진): adaptive prompt 기반으로 HTML/CSS 코드를 생성하여 디자인을 재현하며, 구조화되고 확장 가능하게 구성됩니다  .

또한 ScreenCoder는 자체적으로 대규모 이미지‑코드 쌍 합성 엔진을 갖추고 있어, 사전 훈련된 VLM을 지도 학습 및 강화 학습 방식으로 미세조정해 코드 품질과 UI 이해도를 크게 향상시킵니다  

 

https://github.com/leigest519/ScreenCoder

 

GitHub - leigest519/ScreenCoder: ScreenCoder — Turn any UI screenshot into clean, editable HTML/CSS with full control. Fast, a

ScreenCoder — Turn any UI screenshot into clean, editable HTML/CSS with full control. Fast, accurate, and easy to customize. - leigest519/ScreenCoder

github.com

 

반응형

+ Recent posts