[Computer Vision] Self-Supervised Learning 톺아보기 ; iBOT

May 30, 2023 최대 1 분 소요

ICLR 2022에서 발표된 iBOT 🤖: Image BERT Pre-Training with Online Tokenizer입니다.

Language model training에 있어 Masked Language Modeling(MLM)은 성공적인 paradigm으로 자리잡았습니다.

대표적으로 BERT가 그러했죠.

이러한 성공 기반에는 lingual tokenizer (ex. WordPiece, BPE, Unigram)를 활용해 input을 semantically meaningful token으로 만들어주는 것이 중요했습니다.

하지만 Visual semantics는 ligual semantics과 달리 image의 연속적인 특성으로 인해 쉽게 뽑아내기가 어렵습니다.

이를 해결하기 위해 BEIT : Pre-Training of Image Transformer에서는 DALL-E의 pre-trained VAE를 visual tokenizer로 활용했으나 이로 인해 multi-stage training pipeline이 불가피했고 또한 tokenizer가 high-level semantics을 잡아내는데 어려움을 보였습니다.

그렇기에 이 논문에서 저자는 Vision transformer를 잘 학습하기 위해 Online tokenizer와 Knowlege distillation을 통해 새로운 Masked Image Modeling (MIM) framework를 제시하였습니다.

아래의 유튜브 동영상으로 논문에 대한 설명을 진행하였으니 한번 봐주시면 감사하겠습니다.

Twitter Facebook LinkedIn

Jaehyeong Chun

[Computer Vision] Self-Supervised Learning 톺아보기 ; iBOT

공유하기

댓글남기기

참고

[Computer Vision] Self-Supervised Learning 톺아보기 ; DINO

[Computer Vision] Self-Supervised Learning 톺아보기 ; VICReg

내 머리 속의 책갈피

[Computer Vision] Object Detection 톺아보기-1 ; R-CNN