GoT(Generation Chain-of-Thought)는 이미지 생성과 편집을 언어 기반 추론 과정을 통해 수행하는 혁신적인 프레임워크입니다.

기존의 텍스트-이미지 생성 방식을 확장하여 의미적 관계와 공간적 배치를 분석한 후 이미지를 출력합니다.

또한, 고품질 데이터셋(Laion-Aesthetics, JourneyDB, OmniEdit)을 활용하여 더욱 정교한 결과물을 생성할 수 있습니다.

https://github.com/rongyaofang/GoT

 

GitHub - rongyaofang/GoT: Official repository of "GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Vi

Official repository of "GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing" - rongyaofang/GoT

github.com

 

반응형

+ Recent posts