최근 옥스퍼드 대학교 비주얼 지오메트리 그룹과 메타 AI 연구팀은 VGGT(Visual Geometry Grounded Transformer)를 발표했습니다. VGGT는 피드포워드 신경망으로, 하나 또는 여러 장의 이미지로부터 카메라 파라미터, 포인트 맵, 깊이 맵, 3D 포인트 트랙 등 주요 3D 속성을 직접 추론합니다.   

이 모델은 기존의 단일 작업에 특화된 모델과 달리, 다양한 3D 작업을 동시에 수행할 수 있습니다. 또한, 이미지 재구성 시간을 1초 이하로 단축하면서도 후처리 없이도 기존 최적화 기반 기법들을 능가하는 성능을 보입니다. 이를 통해 카메라 파라미터 추정, 멀티뷰 깊이 추정, 고밀도 포인트 클라우드 재구성, 3D 포인트 트래킹 등 여러 3D 작업에서 최신 성능을 달성했습니다.  

VGGT의 아키텍처는 입력 이미지를 DINO를 통해 토큰화하고, 카메라 예측을 위한 토큰을 추가합니다. 이후 프레임별 및 글로벌 셀프 어텐션 레이어를 번갈아 적용하며, 최종적으로 카메라 외부 및 내부 파라미터를 예측하는 카메라 헤드와 깊이 맵, 포인트 맵, 트래킹을 위한 특징 맵 등을 출력하는 DPT 헤드를 사용합니다.  

또한, 사전 학습된 VGGT를 특징 추출 백본으로 활용하면 비강체 포인트 트래킹이나 피드포워드 기반 새로운 뷰 합성 등 다양한 다운스트림 작업의 성능을 크게 향상시킬 수 있습니다. 

https://vgg-t.github.io/

 

VGGT: Visual Geometry Grounded Transformer.

We propose Visual Geometry Grounded Transformer (VGGT), a feed-forward neural network that directly predicts all key 3D scene attributes from single or multiple (up to hundreds) image views within seconds.

vgg-t.github.io

 

반응형

Lightpanda는 AI 에이전트, 대규모 언어 모델(LLM) 훈련, 웹 스크래핑 및 테스트를 위해 설계된 오픈 소스 헤드리스 브라우저입니다.\

이 브라우저는 JavaScript 실행과 웹 API 지원(현재 진행 중)을 제공하며, Playwright 및 Puppeteer와 같은 도구와의 호환성을 목표로 하고 있습니다.

 

Lightpanda의 주요 특징은 다음과 같습니다:

낮은 메모리 사용량: Chrome에 비해 9배 적은 메모리를 사용합니다.

빠른 실행 속도: Chrome보다 11배 빠른 성능을 제공합니다.

즉각적인 시작: 빠른 시작으로 효율적인 작업이 가능합니다.

 

https://github.com/lightpanda-io/browser

 

GitHub - lightpanda-io/browser: Lightpanda: the headless browser designed for AI and automation

Lightpanda: the headless browser designed for AI and automation - lightpanda-io/browser

github.com

 

반응형

GoT(Generation Chain-of-Thought)는 이미지 생성과 편집을 언어 기반 추론 과정을 통해 수행하는 혁신적인 프레임워크입니다.

기존의 텍스트-이미지 생성 방식을 확장하여 의미적 관계와 공간적 배치를 분석한 후 이미지를 출력합니다.

또한, 고품질 데이터셋(Laion-Aesthetics, JourneyDB, OmniEdit)을 활용하여 더욱 정교한 결과물을 생성할 수 있습니다.

https://github.com/rongyaofang/GoT

 

GitHub - rongyaofang/GoT: Official repository of "GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Vi

Official repository of "GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing" - rongyaofang/GoT

github.com

 

반응형

Repomix는 코드베이스를 AI가 이해하기 쉬운 형식으로 변환해주는 강력한 도구입니다.

Git을 인식하여 .gitignore을 자동으로 적용하며, 보안 강화를 위해 Secretlint를 사용해 민감한 정보를 보호합니다.

 

특히, AI 도우미(예: ChatGPT, Claude)와 함께 사용할 때, 코드 분석 및 리팩토링을 효과적으로 진행할 수 있도록 지원합니다.

XML, Markdown, Plain Text 등의 다양한 출력 형식을 제공하며, CLI 또는 Docker 환경에서도 실행할 수 있습니다.

 

https://repomix.com/

 

Repomix

Pack your codebase into AI-friendly formats

repomix.com

 

반응형

Local Deep Research는 강력한 AI 기반 연구 도우미로, 여러 LLM(대규모 언어 모델)과 웹 검색을 활용한 심층 분석을 수행합니다. 로컬에서 실행할 수 있어 개인정보 보호가 가능하며, 클라우드 기반 LLM을 사용할 수도 있습니다.

 

주요 기능

자동화된 심층 연구: 지능형 후속 질문, 출처 추적 및 검증

유연한 LLM 지원: Ollama, Claude, GPT 등 다양한 모델과 연동 가능

강력한 검색 기능: Wikipedia, arXiv, PubMed, DuckDuckGo, Google 검색 API 등과 연동

로컬 문서 검색(RAG): 벡터 임베딩을 활용한 개인 문서 검색 지원

개인정보 보호: 로컬에서 실행되며, 검색 설정을 자유롭게 조정 가능

 

https://github.com/LearningCircuit/local-deep-research

 

GitHub - LearningCircuit/local-deep-research

Contribute to LearningCircuit/local-deep-research development by creating an account on GitHub.

github.com

 

반응형

KTransformers는 최신 대형 언어 모델(LLM) 추론 최적화를 쉽게 경험할 수 있도록 설계된 유연한 Python 기반 프레임워크입니다.

단 한 줄의 코드로 최적화된 모듈을 적용할 수 있으며, Transformers 호환 인터페이스, OpenAI 및 Ollama와 호환되는 RESTful API, 간단한 ChatGPT 스타일 웹 UI도 제공합니다.

 

최근 업데이트에서는 FP8 GPU 커널 지원, 139K 긴 컨텍스트 지원, 24GB VRAM에서 DeepSeek-V3 및 R1 모델 최적화 등이 포함되었습니다.

특히, 멀티 GPU 및 대용량 DRAM 환경에서 최대 28배의 속도 향상을 제공하며, LLM 추론 성능을 극대화할 수 있습니다.

 

https://github.com/kvcache-ai/ktransformers

 

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations - kvcache-ai/ktransformers

github.com

 

반응형

RLAMA는 로컬 Ollama 모델을 활용한 강력한 문서 기반 질의응답(Q&A) 도구입니다. PDF, DOCX, 코드 파일 등 다양한 문서 형식을 지원하며, 모든 처리가 로컬에서 이루어져 데이터 유출 걱정 없이 사용할 수 있습니다.

주요 기능

문서 폴더를 색인화하여 RAG 시스템 생성

인터랙티브 질의응답 세션 지원

간편한 RAG 시스템 관리 (생성, 목록 조회, 삭제)

macOS, Linux, Windows 지원

 

개발자를 위한 CLI 기반 인터페이스를 제공하며, 연구, 학습, 내부 문서 관리 등 다양한 활용이 가능합니다. RLAMA로 개인 또는 기업의 문서 활용을 최적화해 보세요!

 

https://rlama.dev/

반응형

SGLang은 대형 언어 모델(LLM)과 비전 언어 모델(VLM)을 빠르게 서빙할 수 있는 프레임워크입니다. 백엔드 런타임과 프론트엔드 언어를 함께 설계하여 모델과의 상호작용을 더욱 빠르고 효율적으로 만듭니다.

 

핵심 기능

RadixAttention을 활용한 프리픽스 캐싱

오버헤드 없는 CPU 스케줄러

연속 배칭 및 토큰 주의(Paged Attention)

DeepSeek V3/R1 모델 지원 (NVIDIA & AMD GPU 최적화)

JSON 디코딩 속도 3배 향상

 

SGLang은 LLaMA, DeepSeek 등 다양한 최신 모델을 빠르게 서빙할 수 있도록 지원하며, 지속적인 업데이트를 통해 성능을 개선하고 있습니다.

 

https://github.com/sgl-project/sglang

반응형

+ Recent posts