[Paper Review] Don’t Stop Pretraining
·
AI/ML/NLP
보편적으로 NLP분야에서는 대용량의 데이터로 사전 학습된 모델을 가져다가 fine-tuning을 진행을 하는 방식으로 task를 해결합니다. 실제로 160GB 이상의 데이터로 사전학습을 한 RoBERTa는 다양한 task에서 좋은 성능을 보여줍니다. 하지만 이렇게 사전 학습된 모델이 특정 도메인(biomedical, computer science, review)에서도 성능이 잘 나올지는 의문입니다. 따라서 해당 논문에서는 사전학습된 모델이 특정 도메인에 여전히 효과가 좋은지에 대해 다루었습니다. 이 논문의 결론은 간단합니다. 특정 도메인에서 fine-tuning만 하지 말고 MLM(Masked language modeling)도 하면 성능이 잘 나온다입니다. 간단하지만 이것이 작동하는 이유와 실험 과정을..