Cactus는 스마트폰·스마트워치 같은 모바일 기기에서 LLM/VLM/TTS 등 다양한 AI 모델을 로컬(오프라인)으로 구동할 수 있게 해주는 오픈소스 프레임워크입니다. Flutter, React-Native, C/C++ 등 여러 플랫폼을 지원하며, GGUF 포맷을 사용하는 최신 오픈소스 모델들을 즉시 가져다 쓸 수 있는 것이 특징입니다  .

 

 

주요 기능

 

  • 다중 모달 지원: 텍스트 완성, 이미지 인식, 음성 합성 등 다양한 AI 기능 탑재  .
  • 경량화 및 양자화 대응: FP32부터 2-bit 양자화 모델까지 효율적으로 처리  .
  • 클라우드 백업 옵션: 기기에서 실패 시 원격 API로 대체 실행을 선택할 수 있음 .
  • 일관된 API 제공: Flutter, React-Native, C/C++에서 동일한 사용법으로 호출 가능

 

https://github.com/cactus-compute/cactus

 

GitHub - cactus-compute/cactus: Cross-platform framework for deploying LLM/VLM/TTS models locally on smartphones.

Cross-platform framework for deploying LLM/VLM/TTS models locally on smartphones. - cactus-compute/cactus

github.com

 

반응형

스탠포드 대학교 MAST 연구팀이 개발한 BLAST(Browser-LLM Auto-Scaling Technology)는 웹 브라우징 기능을 갖춘 대규모 언어 모델(LLM)을 효율적으로 서빙하기 위한 오픈소스 엔진입니다.

 

BLAST의 주요 특징:

 

  • OpenAI API 호환성: 기존 OpenAI API를 사용하는 애플리케이션을 별도의 수정 없이 BLAST로 전환할 수 있습니다.
  • 고성능 처리: 자동 병렬 처리와 프리픽스 캐싱을 통해 빠른 응답 속도를 제공합니다.
  • 스트리밍 응답: 웹 브라우징 결과를 실시간으로 스트리밍하여 사용자에게 즉각적인 피드백을 제공합니다.
  • 리소스 효율성: 메모리와 LLM 비용을 효율적으로 관리하여 비용을 절감할 수 있습니다.

https://blastproject.org/

 

BLAST - Browser-LLM Auto-Scaling Technology

 

blastproject.org

https://github.com/stanford-mast/blast

 

GitHub - stanford-mast/blast: Browser-LLM Auto-Scaling Technology

Browser-LLM Auto-Scaling Technology. Contribute to stanford-mast/blast development by creating an account on GitHub.

github.com

 

반응형

 

🧠 Void란?

 

Void는 오픈소스 기반의 코드 에디터로, AI 기능이 통합된 Cursor의 대안입니다. Visual Studio Code(VSCode)를 포크하여 개발되었으며, AI 에이전트와의 통합, 코드 변경 시각화, 다양한 LLM(Local Language Model) 지원 등을 특징으로 합니다.

 


 

🔧 주요 기능

 

  • AI 에이전트 통합: GPT-4.1, Claude 3.7, Mistral 등 다양한 오픈소스 모델과 연동하여 코드 작성 및 보조 기능 제공.
  • 변경사항 체크포인트: 코드 변경 이력을 시각적으로 확인하고 관리할 수 있는 기능.
  • 로컬 및 원격 실행 지원: SSH 및 WSL 환경에서의 원격 실행을 지원하여 다양한 개발 환경에 대응.
  • 자동 업데이트: 최신 기능과 보안 패치를 자동으로 적용하여 항상 최신 상태 유지.

https://github.com/voideditor/void

 

GitHub - voideditor/void

Contribute to voideditor/void development by creating an account on GitHub.

github.com

 

 

반응형

Transformer Lab은 복잡한 코딩 없이도 누구나 대형 언어 모델(LLM)을 쉽게 활용할 수 있도록 도와주는 오픈소스 플랫폼입니다. 이 플랫폼은 macOS, Windows, Linux 등 다양한 운영체제에서 동작하며, 로컬 환경에서 모델 다운로드, 미세 조정, 평가, 실행까지 모두 가능합니다.

 

주요 기능으로는 클릭 한 번으로 Llama3, Mistral, Phi3 등 인기 모델 다운로드, Hugging Face와 Apple Silicon 기반의 미세 조정, RLHF 방식 학습(DPO, ORPO, SIMPO 등), RAG 기반 검색 및 임베딩 처리, 시각화 기반 모델 평가 도구 제공 등이 있습니다. 또한 REST API와 플러그인 시스템도 지원하여 다양한 외부 연동이 가능합니다.

 

Transformer Lab은 Mozilla의 후원을 받아 개발되었으며, 사용자는 공식 사이트에서 운영체제별 설치 파일을 받을 수 있습니다. 설치 가이드와 튜토리얼도 함께 제공되어, 누구나 쉽게 시작할 수 있습니다.

https://transformerlab.ai/

 

Hello from Transformer Lab | Transformer Lab

Documentation for LLM Toolkit, Transformer Lab

transformerlab.ai

 

 
반응형

Kodus는 개발 팀이 코드 품질을 향상시키는 데 도움을 주는 오픈 소스 AI 에이전트입니다.  이 도구는 팀의 Git 워크플로우에 통합되어 자동으로 코드 리뷰를 수행하며, 성능, 보안, 가독성 등 다양한 측면에서 피드백을 제공합니다.

 

주요 기능:

 

  • 맥락 인식 지능: Kodus는 코드베이스와 팀의 코딩 표준을 학습하여 관련성 높은 피드백을 제공합니다.
  • 맞춤형 리뷰 정책: 자연어로 리뷰 지침을 설정하여 팀의 엔지니어링 원칙과 실천 방침을 반영할 수 있습니다.
  • 네이티브 Git 통합: 기존 Git 워크플로우와 원활하게 통합되어 풀 리퀘스트에서 직접 피드백을 제공합니다.
  • 지속적인 학습: 팀의 피드백을 반영하여 시간이 지남에 따라 더욱 정교한 리뷰를 제공합니다.

 

Kodus는 클라우드 에디션과 자체 호스팅 에디션으로 제공되며, 팀의 필요에 따라 선택하여 사용할 수 있습니다.

 

https://github.com/kodustech/kodus-ai

 

GitHub - kodustech/kodus-ai: Open source AI code reviews — just like your senior dev would do.

Open source AI code reviews — just like your senior dev would do. - kodustech/kodus-ai

github.com

 

반응형

Local Deep Research는 강력한 AI 기반 연구 도우미로, 여러 LLM(대규모 언어 모델)과 웹 검색을 활용한 심층 분석을 수행합니다. 로컬에서 실행할 수 있어 개인정보 보호가 가능하며, 클라우드 기반 LLM을 사용할 수도 있습니다.

 

주요 기능

자동화된 심층 연구: 지능형 후속 질문, 출처 추적 및 검증

유연한 LLM 지원: Ollama, Claude, GPT 등 다양한 모델과 연동 가능

강력한 검색 기능: Wikipedia, arXiv, PubMed, DuckDuckGo, Google 검색 API 등과 연동

로컬 문서 검색(RAG): 벡터 임베딩을 활용한 개인 문서 검색 지원

개인정보 보호: 로컬에서 실행되며, 검색 설정을 자유롭게 조정 가능

 

https://github.com/LearningCircuit/local-deep-research

 

GitHub - LearningCircuit/local-deep-research

Contribute to LearningCircuit/local-deep-research development by creating an account on GitHub.

github.com

 

반응형

KTransformers는 최신 대형 언어 모델(LLM) 추론 최적화를 쉽게 경험할 수 있도록 설계된 유연한 Python 기반 프레임워크입니다.

단 한 줄의 코드로 최적화된 모듈을 적용할 수 있으며, Transformers 호환 인터페이스, OpenAI 및 Ollama와 호환되는 RESTful API, 간단한 ChatGPT 스타일 웹 UI도 제공합니다.

 

최근 업데이트에서는 FP8 GPU 커널 지원, 139K 긴 컨텍스트 지원, 24GB VRAM에서 DeepSeek-V3 및 R1 모델 최적화 등이 포함되었습니다.

특히, 멀티 GPU 및 대용량 DRAM 환경에서 최대 28배의 속도 향상을 제공하며, LLM 추론 성능을 극대화할 수 있습니다.

 

https://github.com/kvcache-ai/ktransformers

 

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations - kvcache-ai/ktransformers

github.com

 

반응형

SGLang은 대형 언어 모델(LLM)과 비전 언어 모델(VLM)을 빠르게 서빙할 수 있는 프레임워크입니다. 백엔드 런타임과 프론트엔드 언어를 함께 설계하여 모델과의 상호작용을 더욱 빠르고 효율적으로 만듭니다.

 

핵심 기능

RadixAttention을 활용한 프리픽스 캐싱

오버헤드 없는 CPU 스케줄러

연속 배칭 및 토큰 주의(Paged Attention)

DeepSeek V3/R1 모델 지원 (NVIDIA & AMD GPU 최적화)

JSON 디코딩 속도 3배 향상

 

SGLang은 LLaMA, DeepSeek 등 다양한 최신 모델을 빠르게 서빙할 수 있도록 지원하며, 지속적인 업데이트를 통해 성능을 개선하고 있습니다.

 

https://github.com/sgl-project/sglang

반응형

+ Recent posts