맥에서 Gemma 멀티모달 파인튜닝, gemma-tuner-multimodal 소개
gemma-tuner-multimodal은 Apple Silicon 환경에서 Gemma 모델을 텍스트, 이미지, 오디오 데이터로 파인튜닝할 수 있도록 만든 오픈소스 프로젝트입니다. CUDA나 NVIDIA GPU 없이도 동작하며, LoRA 기반 학습을 지원하는 것이 특징입니다.
이 저장소는 텍스트 전용 학습뿐 아니라 이미지+텍스트, 오디오+텍스트 같은 멀티모달 학습까지 지원합니다. 또한 GCS나 BigQuery에서 데이터를 스트리밍해 대용량 데이터셋도 로컬 저장공간 부담 없이 활용할 수 있도록 설계되었습니다.
실시간 학습 시각화 기능도 제공해 loss curve, attention heatmap, 메모리 사용량 등을 브라우저에서 바로 확인할 수 있어 실험 과정을 직관적으로 살펴볼 수 있습니다. Gemma 4와 Gemma 3n 계열 모델을 대상으로, 맥 기반 로컬 AI 개발 환경을 구축하려는 분들에게 특히 눈에 띄는 프로젝트입니다.
https://github.com/mattmireles/gemma-tuner-multimodal
GitHub - mattmireles/gemma-tuner-multimodal: Fine-tune Gemma 4 and 3n with audio, images and text on Apple Silicon, using PyTorc
Fine-tune Gemma 4 and 3n with audio, images and text on Apple Silicon, using PyTorch and Metal Performance Shaders. - mattmireles/gemma-tuner-multimodal
github.com