KTransformers는 최신 대형 언어 모델(LLM) 추론 최적화를 쉽게 경험할 수 있도록 설계된 유연한 Python 기반 프레임워크입니다.

단 한 줄의 코드로 최적화된 모듈을 적용할 수 있으며, Transformers 호환 인터페이스, OpenAI 및 Ollama와 호환되는 RESTful API, 간단한 ChatGPT 스타일 웹 UI도 제공합니다.

 

최근 업데이트에서는 FP8 GPU 커널 지원, 139K 긴 컨텍스트 지원, 24GB VRAM에서 DeepSeek-V3 및 R1 모델 최적화 등이 포함되었습니다.

특히, 멀티 GPU 및 대용량 DRAM 환경에서 최대 28배의 속도 향상을 제공하며, LLM 추론 성능을 극대화할 수 있습니다.

 

https://github.com/kvcache-ai/ktransformers

 

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations - kvcache-ai/ktransformers

github.com

 

반응형

RLAMA는 로컬 Ollama 모델을 활용한 강력한 문서 기반 질의응답(Q&A) 도구입니다. PDF, DOCX, 코드 파일 등 다양한 문서 형식을 지원하며, 모든 처리가 로컬에서 이루어져 데이터 유출 걱정 없이 사용할 수 있습니다.

주요 기능

문서 폴더를 색인화하여 RAG 시스템 생성

인터랙티브 질의응답 세션 지원

간편한 RAG 시스템 관리 (생성, 목록 조회, 삭제)

macOS, Linux, Windows 지원

 

개발자를 위한 CLI 기반 인터페이스를 제공하며, 연구, 학습, 내부 문서 관리 등 다양한 활용이 가능합니다. RLAMA로 개인 또는 기업의 문서 활용을 최적화해 보세요!

 

https://rlama.dev/

반응형

SGLang은 대형 언어 모델(LLM)과 비전 언어 모델(VLM)을 빠르게 서빙할 수 있는 프레임워크입니다. 백엔드 런타임과 프론트엔드 언어를 함께 설계하여 모델과의 상호작용을 더욱 빠르고 효율적으로 만듭니다.

 

핵심 기능

RadixAttention을 활용한 프리픽스 캐싱

오버헤드 없는 CPU 스케줄러

연속 배칭 및 토큰 주의(Paged Attention)

DeepSeek V3/R1 모델 지원 (NVIDIA & AMD GPU 최적화)

JSON 디코딩 속도 3배 향상

 

SGLang은 LLaMA, DeepSeek 등 다양한 최신 모델을 빠르게 서빙할 수 있도록 지원하며, 지속적인 업데이트를 통해 성능을 개선하고 있습니다.

 

https://github.com/sgl-project/sglang

반응형

Merlion은 Salesforce에서 개발한 시계열 분석을 위한 오픈소스 라이브러리입니다.

 

예측(Forecasting), 이상 탐지(Anomaly Detection), 데이터 전처리 등 다양한 기능을 제공하며, 통합된 평가 프레임워크를 통해 모델 성능을 쉽게 비교할 수 있습니다.

 

이 라이브러리는 딥러닝 및 전통적인 기법을 모두 지원하며, PyTorch 및 TensorFlow와 호환됩니다.

데이터 과학자와 엔지니어가 실무에서 활용하기 쉽게 설계되어 있어 금융, IoT, IT 모니터링 등 다양한 분야에서 사용할 수 있습니다.

 

https://github.com/salesforce/Merlion

 

GitHub - salesforce/Merlion: Merlion: A Machine Learning Framework for Time Series Intelligence

Merlion: A Machine Learning Framework for Time Series Intelligence - salesforce/Merlion

github.com

 

반응형

Libredesk는 자체 호스팅이 가능한 오픈 소스 고객 지원 데스크 솔루션입니다.

 

단일 바이너리 앱으로 제공되며, 팀별 다중 인박스 지원, 세밀한 권한 관리, 자동화 기능, 고객 만족도 조사(CSAT), 매크로, SLA 관리, AI 기반 응답 수정 등의 기능을 제공합니다.

 

Docker를 이용한 간편한 설치가 가능하며, BI 도구와 연동하여 데이터 분석도 가능합니다.

 

https://libredesk.io/

 

Libredesk - Free and open-source customer support desk

Self-hosted customer support platform with full control and single binary deployment.

libredesk.io

https://github.com/abhinavxd/libredesk/

 

GitHub - abhinavxd/libredesk: Open source, self-hosted customer support desk. Single binary app.

Open source, self-hosted customer support desk. Single binary app. - abhinavxd/libredesk

github.com

 

반응형

Subtrace는 Docker 컨테이너에서 발생하는 모든 네트워크 요청을 모니터링할 수 있는 오픈 소스 도구입니다.

 

코드 변경 없이 바로 사용할 수 있으며, Python, Node.js, Go 등 모든 언어를 지원합니다.

 

요청의 전체 페이로드, 헤더, 상태 코드, 지연 시간을 확인할 수 있으며, 성능 오버헤드는 100µs 미만으로 매우 적습니다.

 

https://subtrace.dev/

 

Subtrace

 

subtrace.dev

 

 

https://github.com/subtrace/subtrace

반응형

Nping은 Rust로 개발된 강력한 Ping 툴로, ICMP 프로토콜을 활용하여 여러 주소에 대한 동시 Ping 테스트를 지원합니다.

 

실시간 데이터 업데이트 및 시각적 차트 표시 기능을 제공하며, IPv4와 IPv6을 모두 지원합니다.

 

주요 기능

여러 주소에 대한 동시 Ping 테스트

실시간 지연 시간(최대, 최소, 평균) 및 패킷 손실률 표시

시각적 데이터 표시(그래프 및 테이블 지원)

향후 국가 및 도시 정보 표시 기능 추가 예정

 

https://github.com/hanshuaikang/Nping

반응형

Caddy는 자동 HTTPS를 기본으로 제공하는 오픈 소스 웹 서버입니다. 간단한 설정으로 보안이 강화된 웹 서비스를 운영할 수 있으며, Go 언어로 개발되어 빠르고 효율적입니다.

 

주요 특징:

자동 HTTPS 지원

간편한 설정 파일(Caddyfile)

리버스 프록시 기능 제공

다양한 플러그인 확장 가능

 

개발자와 운영자가 손쉽게 사용할 수 있는 Caddy를 통해 안정적인 웹 서버를 구축해 보세요. 🚀

 

https://caddyserver.com/

반응형

+ Recent posts