[NLP] Something of Thoughts 프롬프트 테크닉 (CoT, ToT)
·
AI/ML/NLP
0. IntroLLM의 추론 능력(reasoning)을 향상하기 위한 다양한 프롬프트 테크닉이 연구되고 있습니다. 그중 Something of thoughts 시리즈들을 알아보려고 합니다. 이번에 소개해드릴 것은 2가지입니다.Chain of Thought (CoT)Tree of Thoghts (ToT)1. Chain of ThoughtChain of Thoughts (CoT)는 중간에 추론 단계를 둠으로써 LLM이 복잡한 추론을 가능하게 해 줍니다. 예시에서는 few-shot으로 계산 과정을 단계적으로 알려줬습니다. 비교적 간단한 방법이고 LLM이 문제를 해결해 가나는 과정을 알 수 있다는 장점이 있는 것 같습니다. 또한 zero-shot으로 "천천히 한 단계씩 생각해 보자"라고 한 줄 추가함으로써 Co..
[Paper Review] 생성 AI로 만들어졌는지 판단하기 (DetectGPT)
·
AI/ML/NLP
0. Intro 인터넷상에 있는 수많은 글, 뉴스 또는 학생이 제출한 과제 등이 ChatGPT, Bard로부터 생성된 글인지 어떻게 판별할 수 있을까요? 당장 생각나는 방법은 글을 N-그램과 같이 통계적 기법으로 분석하여 인간의 글과 생성 AI의 글 사이의 관계를 찾는 것이고 또는 BERT와 같은 모델을 분류기로 사용하여 한 가지 주제 또는 프롬프트에 대하여 인간의 글과 생성 AI의 글을 분류하는 모델을 만드는 것입니다. 이 방법들은 인간의 글과 생성 AI의 글을 학습데이터로 확보해야 하기에 시간과 비용이 들 수밖에 없습니다. 이 글에서 소개해드릴 DetectGPT는 이런 비용 없이 비교적 작은 모델(T5)을 활용하여 생성 AI로부터 만들어졌는지 판단합니다. 1. Introduction 방법은 다음과 같..
[Paper Review] LoRA: Low-Rank Adaptation of Large Language Models
·
AI/ML/NLP
1. Introduction 언어모델(Pretrained-language model)들의 파라미터가 기하급수적으로 늘어나면서 전체 파라미터를 파인튜닝시키는 것이 자원적으로 많은 부담이 되고 있습니다. 이러한 문제점을 보완하기 위해 사전학습 모델의 파라미터는 학습을 시키지 않고(freeze) 모델에 새로운 레이어를 추가하고 그 레이어만 학습하는 방식이 연구되고 있습니다. 대표적으로 LSTM구조의 prompt encoder를 붙인 p-tuning과 이번에 소개할 LoRA(Low-Rank Adaptation)가 있겠습니다. LoRA는 레이어 중간중간에 low-rank matrice들을 삽입함으로써 파라미터를 효율적으로 학습하는 방법을 제안했습니다. 그림과 같이 파란색 부분은 학습시키지 않고 $A(r*k)$ 와..
[Paper Review] Don’t Stop Pretraining
·
AI/ML/NLP
보편적으로 NLP분야에서는 대용량의 데이터로 사전 학습된 모델을 가져다가 fine-tuning을 진행을 하는 방식으로 task를 해결합니다. 실제로 160GB 이상의 데이터로 사전학습을 한 RoBERTa는 다양한 task에서 좋은 성능을 보여줍니다. 하지만 이렇게 사전 학습된 모델이 특정 도메인(biomedical, computer science, review)에서도 성능이 잘 나올지는 의문입니다. 따라서 해당 논문에서는 사전학습된 모델이 특정 도메인에 여전히 효과가 좋은지에 대해 다루었습니다. 이 논문의 결론은 간단합니다. 특정 도메인에서 fine-tuning만 하지 말고 MLM(Masked language modeling)도 하면 성능이 잘 나온다입니다. 간단하지만 이것이 작동하는 이유와 실험 과정을..
[Review] OpenAI의 DALL-E2 공개
·
AI/ML/NLP
1. Intro DALL-E의 이름은 윌-E(WALL-E)와 화가 살바도르 달리(Salvador Dali)에서 온 것으로 text to image generation 모델입니다. 자연어를 입력으로 받아 이미지를 생성하는 모델을 말하는 건데, 이번 OpenAI에서 발표한 DALL-E2는 2021년 초에 발표한 DALL-E의 후속 버전으로 당시 아보카도 의자로 많은 관심을 받았었습니다. DALL-E2에서는 해상도가 4배 높아지고 편집 기능도 제공한다고 하는데 어떻게 발전했는지 한 번 알아봤습니다. 2. DALL-E2 입력한 자연어에 대해 DALL-E2가 만들어낸 이미지들입니다. 놀라우리만큼 사실적이고 세상에 없는 이미지를 여러 장 만들어냈습니다. 또한 편지 기능도 주위의 그림자, 반사, 질감을 고려하면서 요..
[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach
·
AI/ML/NLP
1. Introduction 논문에서는 BERT가 충분히 훈련되지 않았고 다음과 같은 방법을 통해 성능을 더 높일 수 있다고 제안했습니다. (We find that BERT was significantly undertrained, and can match or exceed the performance of every model published after it.) 더 큰 batch size, 더 많은 데이터, 더 많은 학습시간 NSP 제거 더 큰 max sequence length을 사용하여 학습 MLM에서 Dynamic Masking 적용 2. Implementation Data 160GB의 데이터 사용 (기존 BERT에서는 16GB) BookCorpus + Wikipedia (16GB) CC-News..
[Paper Review] An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks
·
AI/ML/NLP
1. Abstract 자연어 처리에서 어떤 토크나이저를 사용하냐에 따라 모델의 성능에 영향을 미칩니다. 토큰은 문맥에 대한 정보를 담고 있는 최소한의 단위이고 어떻게 토큰화를 하냐에 따라 모델의 문맥에 대한 이해가 달라지기 때문입니다. 그중 BPE(Byte Pair Encoding)이 간편함 때문에 대표적으로 사용되었지만 그 효과가 한글에도 적용될지는 의문이 있었습니다. 해당 논문은 한국어 처리 시 어떤 토크나이저가 좋은 성능을 보이는지 실험을 했으며 그 결과 Morpheme(형태소)과 BPE를 결합한 Morpheme-aware Subword 방식이 가장 놓은 성능을 보임을 밝혔습니다. 2. Introduction Tokenization은 자연어처리의 가장 첫 단계이며 BPE가 tokenization t..
[Paper Review] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems (TRADE)
·
AI/ML/NLP
링크: https://arxiv.org/pdf/1905.08743.pdf 깃허브 : https://github.com/jasonwu0731/trade-dst