[Review] OpenAI의 DALL-E2 공개

1. Intro

DALL-E의 이름은 윌-E(WALL-E)와 화가 살바도르 달리(Salvador Dali)에서 온 것으로 text to image generation 모델입니다. 자연어를 입력으로 받아 이미지를 생성하는 모델을 말하는 건데, 이번 OpenAI에서 발표한 DALL-E2는 2021년 초에 발표한 DALL-E의 후속 버전으로 당시 아보카도 의자로 많은 관심을 받았었습니다. DALL-E2에서는 해상도가 4배 높아지고 편집 기능도 제공한다고 하는데 어떻게 발전했는지 한 번 알아봤습니다.

2. DALL-E2

우키요에(일본풍속화) 스타일로 식료품을 사는 테디베어 (Teddy bears shopping for groceries in the style of ukiyo-e)

미친 과학자처럼 반짝이는 화학 물질을 섞는 테디베어 (Teddy bears mixing sparkling chemicals as mad scientists in a steampunk style)

사실적인 스타일로 말을 타고 있는 우주 비행사 (An astronaut riding a horse in a photorealistic style)

입력한 자연어에 대해 DALL-E2가 만들어낸 이미지들입니다. 놀라우리만큼 사실적이고 세상에 없는 이미지를 여러 장 만들어냈습니다. 또한 편지 기능도 주위의 그림자, 반사, 질감을 고려하면서 요소를 추가 및 제거하는 것을 볼 수 있습니다. 그렇다면 어떤 모델을 사용하여 이런 효과를 낼 수 있을까요?

3. Model

DALL-E2에 어떤 모델이 쓰였는지 한 번 간단하게 알아보겠습니다.

DALL-E2는 두 가지 부분으로 이루어져 있습니다. 텍스트를 임베딩 하는 'Prior'와 Prior에서 이미지 임베딩을 뽑아 텍스트 임베딩과 합쳐 실제 이미지를 만드는 'Decoder'단계입니다. 텍스트와 이미지를 임베딩(representation)하는 방법은 OpenAI의 CLIP 을 사용한다고 합니다.

CLIP: Connecting Text and Images

We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision.

openai.com

CLIP은 간단히 말하면 텍스트, 이미지 각각의 인코더를 학습하여 가장 어울리는 caption을 찾는 것을 훈련하는 모델입니다. 그 후 decoder에서는 diffusion model을 사용한다고 합니다.

diffusion모델은 이미지에 가우시안 노이즈를 주고 이를 복원하는 과정을 학습하는 것을 말합니다. 이를 통해 이미지를 생성하는 법을 학습합니다.

생략된 부분이 많지만 정리하자면

CLIP text encoder에서 caption에 대한 텍스트 임베딩을 뽑고
Prior에서 텍스트 임베딩을 받아 CLIP Image encoder로부터 이미지 임베딩을 뽑고
diffusion모델이 이미지 임베딩으로부터 이미지를 생성합니다.

3. Conclusion

생각 외로 창의적인 이미지들을 생성해내는 것을 보고 디자인, 게임 등의 업계에 많은 변화가 있을 수 있을 것이라고 생각했습니다. 또한 유해물에 대한 이미지 생성도 제한된다고 하니 그런 부분에 대한 걱정은 덜한 것 같고 앞으로 이런 멀티모달에 대한 관심과 발전이 계속해서 이루어질 것 같습니다.

사용해보고 싶은 신 분들은 waitlist를 받고 있으니 신청해 보시면 좋을 것 같습니다.

참고

https://openai.com/dall-e-2/

DALL·E 2

DALL·E 2 is a new AI system that can create realistic images and art from a description in natural language.

openai.com

https://arxiv.org/abs/2204.06125

Hierarchical Text-Conditional Image Generation with CLIP Latents

Contrastive models like CLIP have been shown to learn robust representations of images that capture both semantics and style. To leverage these representations for image generation, we propose a two-stage model: a prior that generates a CLIP image embeddin

arxiv.org

'AI／ML > NLP' 카테고리의 다른 글

[Paper Review] LoRA: Low-Rank Adaptation of Large Language Models (1)	2023.05.14
[Paper Review] Don’t Stop Pretraining (0)	2022.10.23
[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach (0)	2022.03.13
[Paper Review] An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks (0)	2022.01.23
[Paper Review] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems (TRADE) (0)	2021.05.10

1. Intro

2. DALL-E2

3. Model

3. Conclusion

'AI／ML > NLP' 카테고리의 다른 글

티스토리툴바