1. Intro
DALL-E의 이름은 윌-E(WALL-E)와 화가 살바도르 달리(Salvador Dali)에서 온 것으로 text to image generation 모델입니다. 자연어를 입력으로 받아 이미지를 생성하는 모델을 말하는 건데, 이번 OpenAI에서 발표한 DALL-E2는 2021년 초에 발표한 DALL-E의 후속 버전으로 당시 아보카도 의자로 많은 관심을 받았었습니다. DALL-E2에서는 해상도가 4배 높아지고 편집 기능도 제공한다고 하는데 어떻게 발전했는지 한 번 알아봤습니다.
2. DALL-E2
입력한 자연어에 대해 DALL-E2가 만들어낸 이미지들입니다. 놀라우리만큼 사실적이고 세상에 없는 이미지를 여러 장 만들어냈습니다. 또한 편지 기능도 주위의 그림자, 반사, 질감을 고려하면서 요소를 추가 및 제거하는 것을 볼 수 있습니다. 그렇다면 어떤 모델을 사용하여 이런 효과를 낼 수 있을까요?
3. Model
DALL-E2에 어떤 모델이 쓰였는지 한 번 간단하게 알아보겠습니다.
DALL-E2는 두 가지 부분으로 이루어져 있습니다. 텍스트를 임베딩 하는 'Prior'와 Prior에서 이미지 임베딩을 뽑아 텍스트 임베딩과 합쳐 실제 이미지를 만드는 'Decoder'단계입니다. 텍스트와 이미지를 임베딩(representation)하는 방법은 OpenAI의 CLIP을 사용한다고 합니다.
CLIP은 간단히 말하면 텍스트, 이미지 각각의 인코더를 학습하여 가장 어울리는 caption을 찾는 것을 훈련하는 모델입니다. 그 후 decoder에서는 diffusion model을 사용한다고 합니다.
diffusion모델은 이미지에 가우시안 노이즈를 주고 이를 복원하는 과정을 학습하는 것을 말합니다. 이를 통해 이미지를 생성하는 법을 학습합니다.
생략된 부분이 많지만 정리하자면
- CLIP text encoder에서 caption에 대한 텍스트 임베딩을 뽑고
- Prior에서 텍스트 임베딩을 받아 CLIP Image encoder로부터 이미지 임베딩을 뽑고
- diffusion모델이 이미지 임베딩으로부터 이미지를 생성합니다.
3. Conclusion
생각 외로 창의적인 이미지들을 생성해내는 것을 보고 디자인, 게임 등의 업계에 많은 변화가 있을 수 있을 것이라고 생각했습니다. 또한 유해물에 대한 이미지 생성도 제한된다고 하니 그런 부분에 대한 걱정은 덜한 것 같고 앞으로 이런 멀티모달에 대한 관심과 발전이 계속해서 이루어질 것 같습니다.
사용해보고 싶은 신 분들은 waitlist를 받고 있으니 신청해 보시면 좋을 것 같습니다.
참고
https://arxiv.org/abs/2204.06125