KTransformers는 최신 대형 언어 모델(LLM) 추론 최적화를 쉽게 경험할 수 있도록 설계된 유연한 Python 기반 프레임워크입니다.
단 한 줄의 코드로 최적화된 모듈을 적용할 수 있으며, Transformers 호환 인터페이스, OpenAI 및 Ollama와 호환되는 RESTful API, 간단한 ChatGPT 스타일 웹 UI도 제공합니다.
최근 업데이트에서는 FP8 GPU 커널 지원, 139K 긴 컨텍스트 지원, 24GB VRAM에서 DeepSeek-V3 및 R1 모델 최적화 등이 포함되었습니다.
특히, 멀티 GPU 및 대용량 DRAM 환경에서 최대 28배의 속도 향상을 제공하며, LLM 추론 성능을 극대화할 수 있습니다.
https://github.com/kvcache-ai/ktransformers
GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations
A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations - kvcache-ai/ktransformers
github.com
반응형
'IT 소식 > AI' 카테고리의 다른 글
로컬 AI 연구 도우미, Local Deep Research 소개 (0) | 2025.03.12 |
---|---|
RLAMA – 로컬 문서 기반 Q&A 시스템 (0) | 2025.03.08 |
초고속 LLM 및 비전 모델 서빙 프레임워크, SGLang (0) | 2025.03.07 |