초고속 LLM 및 비전 모델 서빙 프레임워크, SGLang

IT 소식/AI

화니. 2025. 3. 7. 23:27

SGLang은 대형 언어 모델(LLM)과 비전 언어 모델(VLM)을 빠르게 서빙할 수 있는 프레임워크입니다. 백엔드 런타임과 프론트엔드 언어를 함께 설계하여 모델과의 상호작용을 더욱 빠르고 효율적으로 만듭니다.

✅ 핵심 기능

• RadixAttention을 활용한 프리픽스 캐싱

• 오버헤드 없는 CPU 스케줄러

• 연속 배칭 및 토큰 주의(Paged Attention)

• DeepSeek V3/R1 모델 지원 (NVIDIA & AMD GPU 최적화)

• JSON 디코딩 속도 3배 향상

SGLang은 LLaMA, DeepSeek 등 다양한 최신 모델을 빠르게 서빙할 수 있도록 지원하며, 지속적인 업데이트를 통해 성능을 개선하고 있습니다.