[Paper Review] RoBERTa: A Robustly Optimized BERT Pretraining Approach
·
AI/ML/NLP
1. Introduction 논문에서는 BERT가 충분히 훈련되지 않았고 다음과 같은 방법을 통해 성능을 더 높일 수 있다고 제안했습니다. (We find that BERT was significantly undertrained, and can match or exceed the performance of every model published after it.) 더 큰 batch size, 더 많은 데이터, 더 많은 학습시간 NSP 제거 더 큰 max sequence length을 사용하여 학습 MLM에서 Dynamic Masking 적용 2. Implementation Data 160GB의 데이터 사용 (기존 BERT에서는 16GB) BookCorpus + Wikipedia (16GB) CC-News..
[리뷰] Do it! BERT와 GPT로 배우는 자연어 처리
·
1. 책을 고른 이유 저자는 이기창 님으로 ratsgo 블로그를 운영하고 한국어 임베딩이라는 책을 내신 분입니다. 한국어 임베딩을 통해 많은 걸 배웠지만 코드가 도커, 텐서플로우로 되어 있어 파이토치만 썼던 제게는 실습이 익숙하지 않았고 이해 없이 따라 하는 느낌이 강했습니다. 하지만 이 책은 파이토치의 huggingface로 이루어져 있어 실습을 하기에 수월해 보여서 선택하게 되었습니다. 또한 BERT와 GPT 베이스가 되는 Transformer의 이론적인 부분에 대해 다루기 때문에 Transformer 논문을 읽으며 어려움을 겪었던 저의 입장에서는 끌릴 수밖에 없었습니다. 2. 도움이 된 점 1. 한국어 기반 데이터셋 from ratsnlp.nlpbook.classification import Cla..
미니어처 라이프 서울 후기
·
일상
위치 : 여의도 IFC몰 (MPX갤러리) 기간 : ~ 2022년 2월 13일 가격 : 성인 15000원 설 연휴를 맞아 사람이 많지 않은 평일 낮에 다녀온 후기입니다. 작가의 작품을 인스타에서도 볼 수 있지만 일상에서 얻은 독특한 아이디어를 직접 보고 싶어 관람하기로 했습니다. 작가는 하루에 하나씩 작품을 업로드 한다고 합니다. 평소 메모를 통해 아이디어를 유지하고 일상에서 흔히 보는 물건을 다른 시점으로 바라봄으로써 작품을 만든다고 합니다. 다음 사이트에서 매일 올라오는 작품을 확인할 수 있습니다. MINIATURE CALENDAR miniature-calendar.com 전시회 모든 작품의 실물이 있는것은 아니고 사진으로만 있는 것도 있습니다. 실물과 사진을 비교해보며 감상하는 재미를 생각해 봤을 때..
[Paper Review] An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks
·
AI/ML/NLP
1. Abstract 자연어 처리에서 어떤 토크나이저를 사용하냐에 따라 모델의 성능에 영향을 미칩니다. 토큰은 문맥에 대한 정보를 담고 있는 최소한의 단위이고 어떻게 토큰화를 하냐에 따라 모델의 문맥에 대한 이해가 달라지기 때문입니다. 그중 BPE(Byte Pair Encoding)이 간편함 때문에 대표적으로 사용되었지만 그 효과가 한글에도 적용될지는 의문이 있었습니다. 해당 논문은 한국어 처리 시 어떤 토크나이저가 좋은 성능을 보이는지 실험을 했으며 그 결과 Morpheme(형태소)과 BPE를 결합한 Morpheme-aware Subword 방식이 가장 놓은 성능을 보임을 밝혔습니다. 2. Introduction Tokenization은 자연어처리의 가장 첫 단계이며 BPE가 tokenization t..
[Pytorch] 유용한 method (view,reshape,squeeze,permute,stack,repeat,gather...)
·
Pytorch
shape 변경(view,reshape,transpose,permute) 차원 추가,삭제(squeeze,unsqueeze) Tensor 병합(stack,cat(concat) repeat,expand scatter,gather view() vs reshape() ※ 우선 contiguous에 대해 알아야 하는데, data의 메모리상 물리적 위치 주소와 tensor내 data의 index 순서가 일치하면 contiguous 하다고 한다. view : contiguous tensor에만 실행 가능하며 contiguous tensor 반환, 원본의 data가 바뀌면 view로 반환된 tensor도 바뀐다. -> contiguous 보장 reshape : contiguous tensor에서는 view와 동일하며 ..
[Paper Review] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems (TRADE)
·
AI/ML/NLP
링크: https://arxiv.org/pdf/1905.08743.pdf 깃허브 : https://github.com/jasonwu0731/trade-dst