gemma-tuner-multimodal은 Apple Silicon 환경에서 Gemma 모델을 텍스트, 이미지, 오디오 데이터로 파인튜닝할 수 있도록 만든 오픈소스 프로젝트입니다. CUDA나 NVIDIA GPU 없이도 동작하며, LoRA 기반 학습을 지원하는 것이 특징입니다.

 

이 저장소는 텍스트 전용 학습뿐 아니라 이미지+텍스트, 오디오+텍스트 같은 멀티모달 학습까지 지원합니다. 또한 GCS나 BigQuery에서 데이터를 스트리밍해 대용량 데이터셋도 로컬 저장공간 부담 없이 활용할 수 있도록 설계되었습니다.

 

실시간 학습 시각화 기능도 제공해 loss curve, attention heatmap, 메모리 사용량 등을 브라우저에서 바로 확인할 수 있어 실험 과정을 직관적으로 살펴볼 수 있습니다. Gemma 4와 Gemma 3n 계열 모델을 대상으로, 맥 기반 로컬 AI 개발 환경을 구축하려는 분들에게 특히 눈에 띄는 프로젝트입니다.

 

https://github.com/mattmireles/gemma-tuner-multimodal

 

GitHub - mattmireles/gemma-tuner-multimodal: Fine-tune Gemma 4 and 3n with audio, images and text on Apple Silicon, using PyTorc

Fine-tune Gemma 4 and 3n with audio, images and text on Apple Silicon, using PyTorch and Metal Performance Shaders. - mattmireles/gemma-tuner-multimodal

github.com

 

반응형

Paperclip은 여러 AI 에이전트를 한곳에서 관리할 수 있게 만든 오픈소스 프로젝트입니다. Node.js 서버와 React UI 기반으로 동작하며, 목표 설정부터 역할 배치, 예산 관리, 작업 추적까지 한 번에 다룰 수 있는 것이 특징입니다.

 

이 프로젝트는 단순한 챗봇이나 업무 자동화 도구가 아니라, AI 에이전트 팀을 “회사”처럼 운영하는 데 초점을 맞추고 있습니다. 조직도, 거버넌스, 목표 정렬, 티켓 시스템, 감사 로그, 비용 통제 같은 기능을 통해 여러 에이전트의 협업을 체계적으로 관리할 수 있습니다.

 

특히 Claude Code, Codex, Cursor, Bash, HTTP 등 다양한 에이전트나 런타임을 연결할 수 있고, 정해진 주기로 작업을 수행하는 하트비트 방식도 지원합니다. 또 월별 예산 제한을 설정해 토큰 비용이 과도하게 늘어나는 상황을 막을 수 있습니다.

 

Paperclip은 셀프호스팅 방식으로 사용할 수 있으며, 계정 없이도 빠르게 시작할 수 있습니다. 저장소 안내에 따르면 npx paperclipai onboard --yes 명령으로 시작할 수 있고, Node.js 20+와 pnpm 9.15+ 환경이 필요합니다.

 

여러 AI 에이전트를 동시에 운영하거나, 자동화된 AI 팀을 보다 안정적으로 관리하고 싶은 개발자와 스타트업이라면 한 번 살펴볼 만한 프로젝트입니다. 오픈소스 기반이라 확장성과 실험 자유도도 높은 편입니다.

 
 

GitHub - paperclipai/paperclip: Open-source orchestration for zero-human companies

Open-source orchestration for zero-human companies - paperclipai/paperclip

github.com

 

반응형

 

 

MimikaStudio는 Apple Silicon 기반 macOS에서 실행되는 로컬 우선 음성 AI 애플리케이션입니다. 3초 분량의 음성 샘플만으로 보이스 클로닝을 지원하며, 텍스트 음성 변환(TTS), PDF·DOCX·EPUB·Markdown·TXT 문서 읽기, 오디오북 생성 기능을 하나의 앱에서 함께 제공합니다. 또 MLX 기반 Metal 가속에 최적화되어 있고, UI뿐 아니라 MCP·API 경로도 제공해 자동화 활용에도 적합합니다.

 

여기에 Qwen3-TTS, Chatterbox, Kokoro, Supertonic 등 다양한 모델을 통합해 음성 복제와 다국어 TTS를 지원하며, 일부 모델은 한국어도 포함합니다. 현재 배포용 바이너리는 macOS용만 제공되고, 소스 코드는 BSL-1.1 라이선스로 공개되어 있습니다.

 

https://github.com/BoltzmannEntropy/MimikaStudio

 

GitHub - BoltzmannEntropy/MimikaStudio: MimikaStudio - A local-first application for macOS (Apple Silicon) + Agentic MCP Support

MimikaStudio - A local-first application for macOS (Apple Silicon) + Agentic MCP Support - BoltzmannEntropy/MimikaStudio

github.com

 

반응형

 

 

Superpowers는 코딩 에이전트를 위한 에이전트형 스킬 프레임워크이자 소프트웨어 개발 방법론을 담은 오픈소스 프로젝트입니다. 단순히 코드를 바로 작성하는 대신, 먼저 요구사항을 정리하고 설계를 검토한 뒤 구현 계획을 세우는 흐름을 중심에 둡니다.

 

이 저장소의 핵심은 브레인스토밍, 구현 계획 작성, 서브에이전트 기반 개발, 테스트 주도 개발(TDD), 코드 리뷰, 브랜치 마무리까지 이어지는 체계적인 개발 프로세스입니다. 특히 “테스트 먼저, 추측보다 절차, 복잡성 줄이기, 검증 우선” 같은 철학이 분명해 AI 기반 개발 생산성을 높이고 싶은 개발자에게 인상적인 프로젝트입니다.

 

또한 Claude Code, Cursor, Codex, OpenCode, Gemini CLI 등 여러 환경에서 설치할 수 있도록 안내하고 있어, 다양한 AI 개발 도구를 사용하는 팀이나 개인이 참고하기 좋습니다. GitHub에서 많은 관심을 받고 있는 공개 저장소라는 점도 눈에 띕니다.

 

https://github.com/obra/superpowers

 

GitHub - obra/superpowers: An agentic skills framework & software development methodology that works.

An agentic skills framework & software development methodology that works. - obra/superpowers

github.com

 

반응형

 

 

Always-On Memory Agent는 Google ADK와 Gemini 3.1 Flash-Lite를 활용해 만든 상시 실행형 AI 메모리 에이전트입니다. 일반적인 AI 에이전트가 대화가 끝나면 맥락을 잊어버리는 것과 달리, 이 프로젝트는 정보를 계속 읽고 정리하며 연결해 주는 “지속형 기억 레이어”를 목표로 합니다. 특히 벡터 DB나 임베딩 없이, LLM이 직접 구조화된 메모리를 읽고 쓰는 방식이 눈에 띕니다.

 

구성은 꽤 직관적입니다. 먼저 Ingest 단계에서 텍스트, 이미지, 오디오, 비디오, PDF 등 다양한 파일을 받아 핵심 정보와 엔티티, 주제를 추출합니다. 이후 Consolidate 단계에서 일정 주기마다 메모리 간 연결점을 찾고, 관련 내용을 압축해 인사이트를 만듭니다. 마지막으로 Query 단계에서는 누적된 메모리와 통합 결과를 바탕으로 질문에 답변합니다.

 

실무 활용성도 좋습니다. ./inbox 폴더 감시, HTTP API, Streamlit 대시보드를 제공해 파일 업로드, 질의, 메모리 조회·삭제, 수동 통합까지 지원합니다. 저장소 구조를 보면 agent.py, dashboard.py, requirements.txt와 함께 SQLite 기반의 memory.db를 사용해 비교적 가볍게 실행할 수 있도록 설계되어 있습니다.

 

한마디로 정리하면, 이 프로젝트는 “AI가 정보를 저장하는 수준”을 넘어 “스스로 기억을 재구성하는 구조”를 실험해 볼 수 있는 예제입니다. 지속적으로 학습 맥락을 쌓아야 하는 개인 비서, 리서치 봇, 스마트 인박스 같은 서비스에 특히 잘 어울리는 오픈소스라고 볼 수 있습니다.

 

https://github.com/GoogleCloudPlatform/generative-ai/tree/main/gemini/agents/always-on-memory-agent

 

generative-ai/gemini/agents/always-on-memory-agent at main · GoogleCloudPlatform/generative-ai

Sample code and notebooks for Generative AI on Google Cloud, with Gemini on Vertex AI - GoogleCloudPlatform/generative-ai

github.com

 

반응형

 

 

LiteLLM은 OpenAI 형식의 인터페이스로 100개 이상의 LLM을 호출할 수 있도록 도와주는 오픈소스 프로젝트입니다. OpenAI, Azure, Bedrock, Vertex AI, Anthropic, Groq 등 다양한 AI 모델 제공자를 하나의 방식으로 연결할 수 있어, 여러 모델을 함께 운영해야 하는 개발팀과 플랫폼팀에 특히 유용합니다.

이 도구는 크게 두 가지 방식으로 사용할 수 있습니다. 첫 번째는 Python SDK로, 애플리케이션 코드 안에서 여러 LLM을 통합 호출할 수 있습니다. 두 번째는 AI Gateway(Proxy Server) 방식으로, 중앙에서 인증, 권한 관리, 비용 추적, 로깅, 캐싱, 모니터링까지 관리할 수 있습니다.

LiteLLM의 강점은 단순한 모델 호출에 그치지 않는다는 점입니다. 채팅, 응답 생성, 임베딩, 이미지, 오디오, 배치, 리랭크 등 다양한 엔드포인트를 지원하며, A2A 에이전트 연동과 MCP 도구 연결까지 지원해 AI 애플리케이션 확장성이 높습니다.

또한 라우팅, 재시도, 폴백, 로드 밸런싱, 예외 처리, 관측성 도구 연동 등 실무에서 필요한 기능을 폭넓게 제공해 운영 효율성을 높여줍니다. 여러 LLM을 일관된 방식으로 관리하고 싶은 조직이라면 LiteLLM은 매우 실용적인 선택지가 될 수 있습니다.

 

https://github.com/BerriAI/litellm

 

GitHub - BerriAI/litellm: Python SDK, Proxy Server (AI Gateway) to call 100+ LLM APIs in OpenAI (or native) format, with cost tr

Python SDK, Proxy Server (AI Gateway) to call 100+ LLM APIs in OpenAI (or native) format, with cost tracking, guardrails, loadbalancing and logging. [Bedrock, Azure, OpenAI, VertexAI, Cohere, Anthr...

github.com

 

반응형

 

 

ParadeDB는 PostgreSQL 확장(Extension) 형태로 동작하는 현대적 Elasticsearch 대안을 표방하는 오픈소스 프로젝트입니다. “검색과 분석을 Postgres 안으로 가져오자”는 방향이 분명해서, 실시간 업데이트가 잦은 워크로드에서 특히 매력적입니다.

어떤 기능을 노리나?

  • Postgres 안에서 텍스트 검색 + 하이브리드 검색 + 패싯/집계(aggregates) 같은 “검색엔진스러운” 기능을 제공하는 것을 목표로 합니다.
  • 특히 pg_search 확장을 통해 BM25 기반 검색(및 하이브리드 검색)을 핵심 축으로 내세웁니다.

운영 관점에서 좋은 점(Zero ETL 지향)

외부 검색엔진을 붙이면서 생기는 동기화(ETL)·데이터 불일치 문제를 줄이기 위해,

  • 자체 운영 Postgres에는 “확장 설치”로,
  • 매니지드 Postgres(RDS 등)에는 “논리 복제(replica)” 형태로 가져가는 시나리오를 안내합니다

https://github.com/paradedb/paradedb

 

GitHub - paradedb/paradedb: Simple, Elastic-quality search for Postgres

Simple, Elastic-quality search for Postgres. Contribute to paradedb/paradedb development by creating an account on GitHub.

github.com

 

반응형

 

 

X-AnyLabeling은 이미지/비디오 데이터에 대해 AI 보조 자동 라벨링을 지원하는 강력한 어노테이션(라벨링) 도구입니다. Segment Anything(SAM) 계열 모델을 포함해 다양한 모델을 붙여서 검출·분할·포즈·추적·OCR·VLM 작업까지 폭넓게 다룰 수 있는 “올인원 라벨링 워크벤치”에 가깝습니다.

핵심 특징 한눈에 보기

  • Auto-Labeling / Auto-Training 흐름을 지원해 반복 라벨링 시간을 크게 절약
  • 다양한 어노테이션 도형(폴리곤/사각형/회전박스/원/포인트 등)과 편의 기능(예: 브러시 폴리곤, 마스크 반투명 표시, 비교 뷰) 제공
  • 모델 연동 폭이 넓음: YOLO 계열(검출/분할/포즈/회전검출), SAM 1/2/3(세그멘테이션), 추적(ByteTrack 등), OCR(PaddleOCR 계열), 멀티모달/VLM(예: Qwen 계열, ChatGPT 등)까지 “모델 주(動) + 라벨러(靜)” 조합이 가능
  • 이미지뿐 아니라 비디오 기반 검출·분할·트래킹 워크플로도 예시로 제공

함께 보면 좋은 구성: X-AnyLabeling-Server

로컬에서 모델을 돌리는 것뿐 아니라, 원격 추론(서버) 방식으로도 확장할 수 있게 별도 서버 프로젝트(X-AnyLabeling-Server)를 제공합니다. “가볍게 띄우고, 플러그인처럼 모델을 붙이는” 컨셉이라 팀 단위 운영에도 어울립니다.

 

https://github.com/CVHub520/X-AnyLabeling

 

GitHub - CVHub520/X-AnyLabeling: Effortless data labeling with AI support from Segment Anything and other awesome models.

Effortless data labeling with AI support from Segment Anything and other awesome models. - CVHub520/X-AnyLabeling

github.com

 

https://github.com/CVHub520/X-AnyLabeling-Server

 

GitHub - CVHub520/X-AnyLabeling-Server: A Simple, Lightweight, and Extensible Serving Framework for X-AnyLabeling

A Simple, Lightweight, and Extensible Serving Framework for X-AnyLabeling - CVHub520/X-AnyLabeling-Server

github.com

 

교육
 
반응형

+ Recent posts