[Computer Vision] Self-Supervised Learning ํบ์๋ณด๊ธฐ ; iBOT
ICLR 2022์์ ๋ฐํ๋ iBOT ๐ค: Image BERT Pre-Training with Online Tokenizer์ ๋๋ค.
Language model training์ ์์ด Masked Language Modeling(MLM)์ ์ฑ๊ณต์ ์ธ paradigm์ผ๋ก ์๋ฆฌ์ก์์ต๋๋ค.
๋ํ์ ์ผ๋ก BERT๊ฐ ๊ทธ๋ฌํ์ฃ .
์ด๋ฌํ ์ฑ๊ณต ๊ธฐ๋ฐ์๋ lingual tokenizer (ex. WordPiece, BPE, Unigram)๋ฅผ ํ์ฉํด input์ semantically meaningful token์ผ๋ก ๋ง๋ค์ด์ฃผ๋ ๊ฒ์ด ์ค์ํ์ต๋๋ค.
ํ์ง๋ง Visual semantics๋ ligual semantics๊ณผ ๋ฌ๋ฆฌ image์ ์ฐ์์ ์ธ ํน์ฑ์ผ๋ก ์ธํด ์ฝ๊ฒ ๋ฝ์๋ด๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด BEIT : Pre-Training of Image Transformer์์๋ DALL-E์ pre-trained VAE๋ฅผ visual tokenizer๋ก ํ์ฉํ์ผ๋ ์ด๋ก ์ธํด multi-stage training pipeline์ด ๋ถ๊ฐํผํ๊ณ ๋ํ tokenizer๊ฐ high-level semantics์ ์ก์๋ด๋๋ฐ ์ด๋ ค์์ ๋ณด์์ต๋๋ค.
๊ทธ๋ ๊ธฐ์ ์ด ๋ ผ๋ฌธ์์ ์ ์๋ Vision transformer๋ฅผ ์ ํ์ตํ๊ธฐ ์ํด Online tokenizer์ Knowlege distillation์ ํตํด ์๋ก์ด Masked Image Modeling (MIM) framework๋ฅผ ์ ์ํ์์ต๋๋ค.
์๋์ ์ ํ๋ธ ๋์์์ผ๋ก ๋ ผ๋ฌธ์ ๋ํ ์ค๋ช ์ ์งํํ์์ผ๋ ํ๋ฒ ๋ด์ฃผ์๋ฉด ๊ฐ์ฌํ๊ฒ ์ต๋๋ค.
๋๊ธ๋จ๊ธฐ๊ธฐ