KTransformers는 최신 대형 언어 모델(LLM) 추론 최적화를 쉽게 경험할 수 있도록 설계된 유연한 Python 기반 프레임워크입니다.

단 한 줄의 코드로 최적화된 모듈을 적용할 수 있으며, Transformers 호환 인터페이스, OpenAI 및 Ollama와 호환되는 RESTful API, 간단한 ChatGPT 스타일 웹 UI도 제공합니다.

 

최근 업데이트에서는 FP8 GPU 커널 지원, 139K 긴 컨텍스트 지원, 24GB VRAM에서 DeepSeek-V3 및 R1 모델 최적화 등이 포함되었습니다.

특히, 멀티 GPU 및 대용량 DRAM 환경에서 최대 28배의 속도 향상을 제공하며, LLM 추론 성능을 극대화할 수 있습니다.

 

https://github.com/kvcache-ai/ktransformers

 

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations - kvcache-ai/ktransformers

github.com

 

반응형

+ Recent posts