최근 옥스퍼드 대학교 비주얼 지오메트리 그룹과 메타 AI 연구팀은 VGGT(Visual Geometry Grounded Transformer)를 발표했습니다. VGGT는 피드포워드 신경망으로, 하나 또는 여러 장의 이미지로부터 카메라 파라미터, 포인트 맵, 깊이 맵, 3D 포인트 트랙 등 주요 3D 속성을 직접 추론합니다.   

이 모델은 기존의 단일 작업에 특화된 모델과 달리, 다양한 3D 작업을 동시에 수행할 수 있습니다. 또한, 이미지 재구성 시간을 1초 이하로 단축하면서도 후처리 없이도 기존 최적화 기반 기법들을 능가하는 성능을 보입니다. 이를 통해 카메라 파라미터 추정, 멀티뷰 깊이 추정, 고밀도 포인트 클라우드 재구성, 3D 포인트 트래킹 등 여러 3D 작업에서 최신 성능을 달성했습니다.  

VGGT의 아키텍처는 입력 이미지를 DINO를 통해 토큰화하고, 카메라 예측을 위한 토큰을 추가합니다. 이후 프레임별 및 글로벌 셀프 어텐션 레이어를 번갈아 적용하며, 최종적으로 카메라 외부 및 내부 파라미터를 예측하는 카메라 헤드와 깊이 맵, 포인트 맵, 트래킹을 위한 특징 맵 등을 출력하는 DPT 헤드를 사용합니다.  

또한, 사전 학습된 VGGT를 특징 추출 백본으로 활용하면 비강체 포인트 트래킹이나 피드포워드 기반 새로운 뷰 합성 등 다양한 다운스트림 작업의 성능을 크게 향상시킬 수 있습니다. 

https://vgg-t.github.io/

 

VGGT: Visual Geometry Grounded Transformer.

We propose Visual Geometry Grounded Transformer (VGGT), a feed-forward neural network that directly predicts all key 3D scene attributes from single or multiple (up to hundreds) image views within seconds.

vgg-t.github.io

 

반응형

+ Recent posts