[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach
·
AI/ML/NLP
1. Introduction 논문에서는 BERT가 충분히 훈련되지 않았고 다음과 같은 방법을 통해 성능을 더 높일 수 있다고 제안했습니다. (We find that BERT was significantly undertrained, and can match or exceed the performance of every model published after it.) 더 큰 batch size, 더 많은 데이터, 더 많은 학습시간 NSP 제거 더 큰 max sequence length을 사용하여 학습 MLM에서 Dynamic Masking 적용 2. Implementation Data 160GB의 데이터 사용 (기존 BERT에서는 16GB) BookCorpus + Wikipedia (16GB) CC-News..