Zvec는 애플리케이션 내부에 직접 임베딩해서 쓰는(in-process) 오픈소스 벡터 데이터베이스입니다. 별도 서버 구성이나 복잡한 설정 없이, 코드에 라이브러리로 붙여 저지연 유사도 검색을 빠르게 구현하는 데 초점을 맞췄어요. 

 

특징은 크게 4가지로 정리됩니다.

 

  • 초고속 검색: 대규모 벡터도 밀리초 단위 검색을 지향 
  • 간편한 사용성: “서버/설정 없이” 설치 후 바로 사용 
  • Dense + Sparse + Hybrid: 밀집/희소 벡터 모두 지원하고, 구조화 필터와 결합한 하이브리드 검색을 지원 
  • 어디서나 실행: 노트북/서버/CLI/엣지 등 코드가 돌아가는 곳에서 그대로 동작 

 

설치는 Python(3.10~3.12) 기준 pip install zvec, Node.jsnpm install @zvec/zvec 형태로 제공되며, 공식적으로 Linux(x86_64, ARM64)와 macOS(ARM64) 지원을 안내하고 있습니다. 라이선스는 Apache-2.0입니다. 

 

RAG, 추천, 검색 고도화처럼 “벡터 검색이 필요하지만 인프라를 무겁게 가져가고 싶지 않은” 상황에서, 가볍게 붙여서 빠르게 성능을 내는 선택지로 살펴볼 만한 프로젝트입니다.

 

https://github.com/alibaba/zvec

 

GitHub - alibaba/zvec: A lightweight, lightning-fast, in-process vector database

A lightweight, lightning-fast, in-process vector database - alibaba/zvec

github.com

 

반응형

Infinity는 텍스트 임베딩, 리랭킹 모델, CLIP, CLAP, Colpali 등을 고속으로 서빙할 수 있는 REST API 기반의 오픈소스 엔진입니다. Michael Feil이 개발하였으며, MIT 라이선스로 배포되어 자유롭게 사용할 수 있습니다.

 

 

주요 특징

 

  • 다양한 모델 지원: HuggingFace의 임베딩, 리랭킹, CLIP, 문장 변환기 모델을 손쉽게 배포할 수 있습니다.
  • 고속 추론 백엔드: PyTorch, Optimum(ONNX/TensorRT), CTranslate2 기반으로 NVIDIA CUDA, AMD ROCm, CPU, AWS INF2, Apple MPS 등 다양한 하드웨어를 지원합니다.
  • 멀티모달 및 멀티모델 지원: 여러 모델을 동시에 운영하며, 텍스트와 이미지 등 다양한 입력을 처리할 수 있습니다.
  • 간편한 사용법: FastAPI 기반으로 구축되어 있으며, CLI를 통해 환경 변수나 인자를 이용한 설정이 가능합니다.
  • OpenAI API 호환: OpenAI의 API 사양에 맞춰져 있어 기존 시스템과의 통합이 용이합니다.

 

 

활용 예시

 

Infinity는 검색 엔진, 추천 시스템, 문서 분류 등 다양한 분야에서 활용될 수 있습니다. 특히, 고속의 텍스트 임베딩과 리랭킹 기능은 대규모 데이터 처리에 적합합니다.

 

 

시작하기

 

Infinity에 대한 자세한 정보와 설치 방법은 공식 GitHub 저장소에서 확인할 수 있습니다:

 

🔗 https://github.com/michaelfeil/infinity

 

또한, 문서화된 가이드는 다음 링크에서 확인할 수 있습니다:

 

📄 https://michaelfeil.github.io/infinity/

 

Infinity를 통해 고성능의 텍스트 임베딩 및 리랭킹 서비스를 손쉽게 구축해보세요!

반응형

SGLang은 대형 언어 모델(LLM)과 비전 언어 모델(VLM)을 빠르게 서빙할 수 있는 프레임워크입니다. 백엔드 런타임과 프론트엔드 언어를 함께 설계하여 모델과의 상호작용을 더욱 빠르고 효율적으로 만듭니다.

 

핵심 기능

RadixAttention을 활용한 프리픽스 캐싱

오버헤드 없는 CPU 스케줄러

연속 배칭 및 토큰 주의(Paged Attention)

DeepSeek V3/R1 모델 지원 (NVIDIA & AMD GPU 최적화)

JSON 디코딩 속도 3배 향상

 

SGLang은 LLaMA, DeepSeek 등 다양한 최신 모델을 빠르게 서빙할 수 있도록 지원하며, 지속적인 업데이트를 통해 성능을 개선하고 있습니다.

 

https://github.com/sgl-project/sglang

반응형

+ Recent posts