IT 소식/AI
초고속 LLM 및 비전 모델 서빙 프레임워크, SGLang
화니.
2025. 3. 7. 23:27
SGLang은 대형 언어 모델(LLM)과 비전 언어 모델(VLM)을 빠르게 서빙할 수 있는 프레임워크입니다. 백엔드 런타임과 프론트엔드 언어를 함께 설계하여 모델과의 상호작용을 더욱 빠르고 효율적으로 만듭니다.
✅ 핵심 기능
• RadixAttention을 활용한 프리픽스 캐싱
• 오버헤드 없는 CPU 스케줄러
• 연속 배칭 및 토큰 주의(Paged Attention)
• DeepSeek V3/R1 모델 지원 (NVIDIA & AMD GPU 최적화)
• JSON 디코딩 속도 3배 향상
SGLang은 LLaMA, DeepSeek 등 다양한 최신 모델을 빠르게 서빙할 수 있도록 지원하며, 지속적인 업데이트를 통해 성능을 개선하고 있습니다.
반응형