최근 옥스퍼드 대학교 비주얼 지오메트리 그룹과 메타 AI 연구팀은 VGGT(Visual Geometry Grounded Transformer)를 발표했습니다. VGGT는 피드포워드 신경망으로, 하나 또는 여러 장의 이미지로부터 카메라 파라미터, 포인트 맵, 깊이 맵, 3D 포인트 트랙 등 주요 3D 속성을 직접 추론합니다.   

이 모델은 기존의 단일 작업에 특화된 모델과 달리, 다양한 3D 작업을 동시에 수행할 수 있습니다. 또한, 이미지 재구성 시간을 1초 이하로 단축하면서도 후처리 없이도 기존 최적화 기반 기법들을 능가하는 성능을 보입니다. 이를 통해 카메라 파라미터 추정, 멀티뷰 깊이 추정, 고밀도 포인트 클라우드 재구성, 3D 포인트 트래킹 등 여러 3D 작업에서 최신 성능을 달성했습니다.  

VGGT의 아키텍처는 입력 이미지를 DINO를 통해 토큰화하고, 카메라 예측을 위한 토큰을 추가합니다. 이후 프레임별 및 글로벌 셀프 어텐션 레이어를 번갈아 적용하며, 최종적으로 카메라 외부 및 내부 파라미터를 예측하는 카메라 헤드와 깊이 맵, 포인트 맵, 트래킹을 위한 특징 맵 등을 출력하는 DPT 헤드를 사용합니다.  

또한, 사전 학습된 VGGT를 특징 추출 백본으로 활용하면 비강체 포인트 트래킹이나 피드포워드 기반 새로운 뷰 합성 등 다양한 다운스트림 작업의 성능을 크게 향상시킬 수 있습니다. 

https://vgg-t.github.io/

 

VGGT: Visual Geometry Grounded Transformer.

We propose Visual Geometry Grounded Transformer (VGGT), a feed-forward neural network that directly predicts all key 3D scene attributes from single or multiple (up to hundreds) image views within seconds.

vgg-t.github.io

 

반응형

Lightpanda는 AI 에이전트, 대규모 언어 모델(LLM) 훈련, 웹 스크래핑 및 테스트를 위해 설계된 오픈 소스 헤드리스 브라우저입니다.\

이 브라우저는 JavaScript 실행과 웹 API 지원(현재 진행 중)을 제공하며, Playwright 및 Puppeteer와 같은 도구와의 호환성을 목표로 하고 있습니다.

 

Lightpanda의 주요 특징은 다음과 같습니다:

낮은 메모리 사용량: Chrome에 비해 9배 적은 메모리를 사용합니다.

빠른 실행 속도: Chrome보다 11배 빠른 성능을 제공합니다.

즉각적인 시작: 빠른 시작으로 효율적인 작업이 가능합니다.

 

https://github.com/lightpanda-io/browser

 

GitHub - lightpanda-io/browser: Lightpanda: the headless browser designed for AI and automation

Lightpanda: the headless browser designed for AI and automation - lightpanda-io/browser

github.com

 

반응형

GoT(Generation Chain-of-Thought)는 이미지 생성과 편집을 언어 기반 추론 과정을 통해 수행하는 혁신적인 프레임워크입니다.

기존의 텍스트-이미지 생성 방식을 확장하여 의미적 관계와 공간적 배치를 분석한 후 이미지를 출력합니다.

또한, 고품질 데이터셋(Laion-Aesthetics, JourneyDB, OmniEdit)을 활용하여 더욱 정교한 결과물을 생성할 수 있습니다.

https://github.com/rongyaofang/GoT

 

GitHub - rongyaofang/GoT: Official repository of "GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Vi

Official repository of "GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing" - rongyaofang/GoT

github.com

 

반응형

+ Recent posts