Infinity는 텍스트 임베딩, 리랭킹 모델, CLIP, CLAP, Colpali 등을 고속으로 서빙할 수 있는 REST API 기반의 오픈소스 엔진입니다. Michael Feil이 개발하였으며, MIT 라이선스로 배포되어 자유롭게 사용할 수 있습니다.

 

 

주요 특징

 

  • 다양한 모델 지원: HuggingFace의 임베딩, 리랭킹, CLIP, 문장 변환기 모델을 손쉽게 배포할 수 있습니다.
  • 고속 추론 백엔드: PyTorch, Optimum(ONNX/TensorRT), CTranslate2 기반으로 NVIDIA CUDA, AMD ROCm, CPU, AWS INF2, Apple MPS 등 다양한 하드웨어를 지원합니다.
  • 멀티모달 및 멀티모델 지원: 여러 모델을 동시에 운영하며, 텍스트와 이미지 등 다양한 입력을 처리할 수 있습니다.
  • 간편한 사용법: FastAPI 기반으로 구축되어 있으며, CLI를 통해 환경 변수나 인자를 이용한 설정이 가능합니다.
  • OpenAI API 호환: OpenAI의 API 사양에 맞춰져 있어 기존 시스템과의 통합이 용이합니다.

 

 

활용 예시

 

Infinity는 검색 엔진, 추천 시스템, 문서 분류 등 다양한 분야에서 활용될 수 있습니다. 특히, 고속의 텍스트 임베딩과 리랭킹 기능은 대규모 데이터 처리에 적합합니다.

 

 

시작하기

 

Infinity에 대한 자세한 정보와 설치 방법은 공식 GitHub 저장소에서 확인할 수 있습니다:

 

🔗 https://github.com/michaelfeil/infinity

 

또한, 문서화된 가이드는 다음 링크에서 확인할 수 있습니다:

 

📄 https://michaelfeil.github.io/infinity/

 

Infinity를 통해 고성능의 텍스트 임베딩 및 리랭킹 서비스를 손쉽게 구축해보세요!

반응형

SGLang은 대형 언어 모델(LLM)과 비전 언어 모델(VLM)을 빠르게 서빙할 수 있는 프레임워크입니다. 백엔드 런타임과 프론트엔드 언어를 함께 설계하여 모델과의 상호작용을 더욱 빠르고 효율적으로 만듭니다.

 

핵심 기능

RadixAttention을 활용한 프리픽스 캐싱

오버헤드 없는 CPU 스케줄러

연속 배칭 및 토큰 주의(Paged Attention)

DeepSeek V3/R1 모델 지원 (NVIDIA & AMD GPU 최적화)

JSON 디코딩 속도 3배 향상

 

SGLang은 LLaMA, DeepSeek 등 다양한 최신 모델을 빠르게 서빙할 수 있도록 지원하며, 지속적인 업데이트를 통해 성능을 개선하고 있습니다.

 

https://github.com/sgl-project/sglang

반응형

+ Recent posts