[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach
·
AI/ML/NLP
1. Introduction 논문에서는 BERT가 충분히 훈련되지 않았고 다음과 같은 방법을 통해 성능을 더 높일 수 있다고 제안했습니다. (We find that BERT was significantly undertrained, and can match or exceed the performance of every model published after it.) 더 큰 batch size, 더 많은 데이터, 더 많은 학습시간 NSP 제거 더 큰 max sequence length을 사용하여 학습 MLM에서 Dynamic Masking 적용 2. Implementation Data 160GB의 데이터 사용 (기존 BERT에서는 16GB) BookCorpus + Wikipedia (16GB) CC-News..
[Paper Review] An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks
·
AI/ML/NLP
1. Abstract 자연어 처리에서 어떤 토크나이저를 사용하냐에 따라 모델의 성능에 영향을 미칩니다. 토큰은 문맥에 대한 정보를 담고 있는 최소한의 단위이고 어떻게 토큰화를 하냐에 따라 모델의 문맥에 대한 이해가 달라지기 때문입니다. 그중 BPE(Byte Pair Encoding)이 간편함 때문에 대표적으로 사용되었지만 그 효과가 한글에도 적용될지는 의문이 있었습니다. 해당 논문은 한국어 처리 시 어떤 토크나이저가 좋은 성능을 보이는지 실험을 했으며 그 결과 Morpheme(형태소)과 BPE를 결합한 Morpheme-aware Subword 방식이 가장 놓은 성능을 보임을 밝혔습니다. 2. Introduction Tokenization은 자연어처리의 가장 첫 단계이며 BPE가 tokenization t..
[Paper Review] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems (TRADE)
·
AI/ML/NLP
링크: https://arxiv.org/pdf/1905.08743.pdf 깃허브 : https://github.com/jasonwu0731/trade-dst