스탠포드 대학교 MAST 연구팀이 개발한 BLAST(Browser-LLM Auto-Scaling Technology)는 웹 브라우징 기능을 갖춘 대규모 언어 모델(LLM)을 효율적으로 서빙하기 위한 오픈소스 엔진입니다.

 

BLAST의 주요 특징:

 

  • OpenAI API 호환성: 기존 OpenAI API를 사용하는 애플리케이션을 별도의 수정 없이 BLAST로 전환할 수 있습니다.
  • 고성능 처리: 자동 병렬 처리와 프리픽스 캐싱을 통해 빠른 응답 속도를 제공합니다.
  • 스트리밍 응답: 웹 브라우징 결과를 실시간으로 스트리밍하여 사용자에게 즉각적인 피드백을 제공합니다.
  • 리소스 효율성: 메모리와 LLM 비용을 효율적으로 관리하여 비용을 절감할 수 있습니다.

https://blastproject.org/

 

BLAST - Browser-LLM Auto-Scaling Technology

 

blastproject.org

https://github.com/stanford-mast/blast

 

GitHub - stanford-mast/blast: Browser-LLM Auto-Scaling Technology

Browser-LLM Auto-Scaling Technology. Contribute to stanford-mast/blast development by creating an account on GitHub.

github.com

 

반응형

 

🧠 Void란?

 

Void는 오픈소스 기반의 코드 에디터로, AI 기능이 통합된 Cursor의 대안입니다. Visual Studio Code(VSCode)를 포크하여 개발되었으며, AI 에이전트와의 통합, 코드 변경 시각화, 다양한 LLM(Local Language Model) 지원 등을 특징으로 합니다.

 


 

🔧 주요 기능

 

  • AI 에이전트 통합: GPT-4.1, Claude 3.7, Mistral 등 다양한 오픈소스 모델과 연동하여 코드 작성 및 보조 기능 제공.
  • 변경사항 체크포인트: 코드 변경 이력을 시각적으로 확인하고 관리할 수 있는 기능.
  • 로컬 및 원격 실행 지원: SSH 및 WSL 환경에서의 원격 실행을 지원하여 다양한 개발 환경에 대응.
  • 자동 업데이트: 최신 기능과 보안 패치를 자동으로 적용하여 항상 최신 상태 유지.

https://github.com/voideditor/void

 

GitHub - voideditor/void

Contribute to voideditor/void development by creating an account on GitHub.

github.com

 

 

반응형

Transformer Lab은 복잡한 코딩 없이도 누구나 대형 언어 모델(LLM)을 쉽게 활용할 수 있도록 도와주는 오픈소스 플랫폼입니다. 이 플랫폼은 macOS, Windows, Linux 등 다양한 운영체제에서 동작하며, 로컬 환경에서 모델 다운로드, 미세 조정, 평가, 실행까지 모두 가능합니다.

 

주요 기능으로는 클릭 한 번으로 Llama3, Mistral, Phi3 등 인기 모델 다운로드, Hugging Face와 Apple Silicon 기반의 미세 조정, RLHF 방식 학습(DPO, ORPO, SIMPO 등), RAG 기반 검색 및 임베딩 처리, 시각화 기반 모델 평가 도구 제공 등이 있습니다. 또한 REST API와 플러그인 시스템도 지원하여 다양한 외부 연동이 가능합니다.

 

Transformer Lab은 Mozilla의 후원을 받아 개발되었으며, 사용자는 공식 사이트에서 운영체제별 설치 파일을 받을 수 있습니다. 설치 가이드와 튜토리얼도 함께 제공되어, 누구나 쉽게 시작할 수 있습니다.

https://transformerlab.ai/

 

Hello from Transformer Lab | Transformer Lab

Documentation for LLM Toolkit, Transformer Lab

transformerlab.ai

 

 
반응형

Kodus는 개발 팀이 코드 품질을 향상시키는 데 도움을 주는 오픈 소스 AI 에이전트입니다.  이 도구는 팀의 Git 워크플로우에 통합되어 자동으로 코드 리뷰를 수행하며, 성능, 보안, 가독성 등 다양한 측면에서 피드백을 제공합니다.

 

주요 기능:

 

  • 맥락 인식 지능: Kodus는 코드베이스와 팀의 코딩 표준을 학습하여 관련성 높은 피드백을 제공합니다.
  • 맞춤형 리뷰 정책: 자연어로 리뷰 지침을 설정하여 팀의 엔지니어링 원칙과 실천 방침을 반영할 수 있습니다.
  • 네이티브 Git 통합: 기존 Git 워크플로우와 원활하게 통합되어 풀 리퀘스트에서 직접 피드백을 제공합니다.
  • 지속적인 학습: 팀의 피드백을 반영하여 시간이 지남에 따라 더욱 정교한 리뷰를 제공합니다.

 

Kodus는 클라우드 에디션과 자체 호스팅 에디션으로 제공되며, 팀의 필요에 따라 선택하여 사용할 수 있습니다.

 

https://github.com/kodustech/kodus-ai

 

GitHub - kodustech/kodus-ai: Open source AI code reviews — just like your senior dev would do.

Open source AI code reviews — just like your senior dev would do. - kodustech/kodus-ai

github.com

 

반응형

Local Deep Research는 강력한 AI 기반 연구 도우미로, 여러 LLM(대규모 언어 모델)과 웹 검색을 활용한 심층 분석을 수행합니다. 로컬에서 실행할 수 있어 개인정보 보호가 가능하며, 클라우드 기반 LLM을 사용할 수도 있습니다.

 

주요 기능

자동화된 심층 연구: 지능형 후속 질문, 출처 추적 및 검증

유연한 LLM 지원: Ollama, Claude, GPT 등 다양한 모델과 연동 가능

강력한 검색 기능: Wikipedia, arXiv, PubMed, DuckDuckGo, Google 검색 API 등과 연동

로컬 문서 검색(RAG): 벡터 임베딩을 활용한 개인 문서 검색 지원

개인정보 보호: 로컬에서 실행되며, 검색 설정을 자유롭게 조정 가능

 

https://github.com/LearningCircuit/local-deep-research

 

GitHub - LearningCircuit/local-deep-research

Contribute to LearningCircuit/local-deep-research development by creating an account on GitHub.

github.com

 

반응형

KTransformers는 최신 대형 언어 모델(LLM) 추론 최적화를 쉽게 경험할 수 있도록 설계된 유연한 Python 기반 프레임워크입니다.

단 한 줄의 코드로 최적화된 모듈을 적용할 수 있으며, Transformers 호환 인터페이스, OpenAI 및 Ollama와 호환되는 RESTful API, 간단한 ChatGPT 스타일 웹 UI도 제공합니다.

 

최근 업데이트에서는 FP8 GPU 커널 지원, 139K 긴 컨텍스트 지원, 24GB VRAM에서 DeepSeek-V3 및 R1 모델 최적화 등이 포함되었습니다.

특히, 멀티 GPU 및 대용량 DRAM 환경에서 최대 28배의 속도 향상을 제공하며, LLM 추론 성능을 극대화할 수 있습니다.

 

https://github.com/kvcache-ai/ktransformers

 

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations - kvcache-ai/ktransformers

github.com

 

반응형

SGLang은 대형 언어 모델(LLM)과 비전 언어 모델(VLM)을 빠르게 서빙할 수 있는 프레임워크입니다. 백엔드 런타임과 프론트엔드 언어를 함께 설계하여 모델과의 상호작용을 더욱 빠르고 효율적으로 만듭니다.

 

핵심 기능

RadixAttention을 활용한 프리픽스 캐싱

오버헤드 없는 CPU 스케줄러

연속 배칭 및 토큰 주의(Paged Attention)

DeepSeek V3/R1 모델 지원 (NVIDIA & AMD GPU 최적화)

JSON 디코딩 속도 3배 향상

 

SGLang은 LLaMA, DeepSeek 등 다양한 최신 모델을 빠르게 서빙할 수 있도록 지원하며, 지속적인 업데이트를 통해 성능을 개선하고 있습니다.

 

https://github.com/sgl-project/sglang

반응형

AI와 머신러닝의 빠르게 변화하는 세계에서 Hugging Face는 항상 혁신의 선두에 서왔습니다. 그들의 최신 프로젝트인 smolLM은 누구나 쉽게 접근하고 효율적으로 사용할 수 있는 머신러닝을 만들겠다는 의지를 잘 보여줍니다.

smolLM이란 무엇인가요?

smolLM은 작고 가벼운 언어 모델을 만들고, 학습시키고, 배포할 수 있도록 설계된 경량 프레임워크입니다. 대규모 컴퓨팅 자원이 필요한 거대 모델과는 달리, smolLM은 효율성에 중점을 두어 제한된 인프라에서도 원활하게 작동합니다. 이는 빠른 프로토타이핑이 필요한 프로젝트에도 이상적입니다.

주요 특징

  1. 최소한의 자원 소모: 제한된 컴퓨팅 자원에서도 최적화된 성능 제공.
  2. 유연성: 텍스트 분류, 감정 분석, 질문 응답과 같은 다양한 NLP 작업에 손쉽게 커스터마이징 가능.
  3. Hugging Face 생태계와의 통합: Transformers와 Datasets 같은 기존 도구들과 매끄럽게 연동 가능.
  4. 오픈소스: Hugging Face GitHub 저장소에서 완전히 오픈소스로 제공되며, 커뮤니티 참여와 기여를 장려.

smolLM을 선택해야 하는 이유

개발자와 연구자들에게 smolLM은 게임 체인저입니다. 성능과 접근성의 균형을 맞추어 소규모 팀이나 개인도 대규모 시스템의 부담 없이 언어 모델의 잠재력을 탐구할 수 있도록 합니다. AI를 제품에 통합하려는 스타트업이나 NLP를 실험해보고자 하는 학생들에게 smolLM은 완벽한 출발점을 제공합니다.

시작하는 방법

smolLM을 시작하는 방법은 간단합니다:

  1. GitHub 저장소를 방문해 상세한 문서와 설치 안내를 확인하세요.
  2. 다양한 작업에 smolLM을 활용하는 방법을 이해하기 위해 제공된 예제를 탐색해보세요.
  3. Hugging Face 커뮤니티에 참여해 프로젝트를 공유하고 다른 사람들의 경험에서 배워보세요.

Hugging Face의 smolLM은 단순한 도구 그 이상입니다. 이는 NLP 기술에 대한 접근성을 민주화할 수 있는 기회입니다. 지금 바로 저장소를 방문해 smolLM으로 새로운 프로젝트를 시작해보세요!

 

https://github.com/huggingface/smollm

반응형

+ Recent posts