[Causal Inference] 호텔 예약 취소에 숨은 인과관계
·
Causal Inference/DoWhy
0. Intro 호텔 예약이 취소되는 이유는 다양합니다. 원하는 시설(주차장, 풀)이 없거나 여행이 취소됐을 수도 있습니다. 일부는 호텔에서 조치를 취할 수 있는 반면 여행 취소와 같은 일은 호텔의 통제 범위를 벗어납니다. 어쨌든 이러한 요인 중 어떤 것이 예약 취소를 유발하는지 더 잘 이해하고 싶습니다. 따라서 Antonio, Almeida, Nunes(2019) 의 호텔 예약 데이터셋과 Microsoft의 DoWhy라이브러리를 사용하여 다른 방을 배정해주는 것과 예약 취소 사이의 인과관계를 분석해보고자 합니다. 앞서 인과관계를 알기 위한 최적의 방법(gold standard)은 무작위 시행 또는 무작위 대조 실험 (Randomized Controlled Trial, RCT)을 이용해 편향을 제거하는 ..
[일상] 2022년 정주행 미드 중 추천 3편
·
일상
0. Intro 벌써 12월이 되면서 올해 본 미드 중 재밌게 본, 다시 봐도 좋을 법한 미드들을 정리하려고 합니다. 개인적으로 수사물, 코미디, 시트콤은 전혀 안 보고 시간을 아끼기 위해 평점을 참고하여 정주행 할 미드를 선정하니 참고하시기 바랍니다. 1. 베터 콜 사울 시즌6 (Better Call Saul) 평점 (IMDB 8.9/10 , RT 98%) 미드 에 나왔던 범죄 변호사 사울 굿맨(지미)의 6년 전 과거를 다룬 이야기로, 국선 변호사로서 활약하던 시점에서 출발하여 점점 범죄에 가담하면서 타락해 가는 과정을 보여줍니다. 일류 변호사인 형과의 갈등, 과거 사기꾼으로 살던 시절의 기억과 그리고 삼류 변호사가 겪는 어려움들이 주인공 지미를 선택의 기로에 계속 내몰게 되며 그 갈림길에서 준법과 불..
[Causal Inference] 잠재적 결과 프레임워크와 무작위 통제실험
·
Causal Inference
0. 인과추론의 양대산맥 인과추론 방식의 양대산맥으로 Potential Outcomes Framework과 Structural Causal Model가 있습니다. 전자는 잠재적 결과를 이용하여 인과관계를 분석하려는 것으로 사회과학 분야를 바탕으로 발전되어 왔으며 후자는 인과관계로 표현할 수 있는 변수들을 인과그래프로 모델링한 후, 인과관계를 분석하려는 방식으로 컴퓨터과학 분야를 바탕으로 발전되었다고 합니다. 1. 잠재적 결과 프레임워크 (Potential Outcome Framework) 이번에는 인과추론 방식 중 하나인 잠재적 결과 프레임워크에 대해 알아보겠습니다. 말 그대로 인과효과를 실제 결과와 잠재적 결과의 차이로 정의하는 접근입니다. 1-1. 인과추론의 근본적인 문제 인과관계를 추론하는 가장 확..
[Causal Inference] 인과 추론의 개요와 어려움
·
Causal Inference
0. 인과 추론? 요즘 여러 산업에서 AI/ML을 활용하여 문제를 해결해나가고 있는데요, 대부분의 목적은 예측(prediction)에 있습니다. 코로나 감염 추세가 어떻게 될지, 상품 추천의 결과가 어떻게 될지, 주가가 어떻게 될지 등에 대해 말이죠. 하지만 인과관계를 알고자 만약에라는 질문을 하면 이에 대해서는 답을 하기가 어렵습니다. 만약에 백신을 안 맞으면 어떻게 될지, 만약 마케팅 프로모션을 진행하지 않으면 어떻게 될지, 만약 그때 주식을 샀으면 어떻게 될지 말이죠. 예시와 같이 특정 조치(treatment) X가 Y라는 결과에 미치는 영향을 추론하는 것이 인과 추론입니다. 검증된 인과관계는 데이터 분석가로부터 납득할 수 있는 스토리텔링을 할 수 있게 해 주며 기업의 의사결정에 도움이 됩니다. 따..
[Paper Review] Don’t Stop Pretraining
·
AI/ML/NLP
보편적으로 NLP분야에서는 대용량의 데이터로 사전 학습된 모델을 가져다가 fine-tuning을 진행을 하는 방식으로 task를 해결합니다. 실제로 160GB 이상의 데이터로 사전학습을 한 RoBERTa는 다양한 task에서 좋은 성능을 보여줍니다. 하지만 이렇게 사전 학습된 모델이 특정 도메인(biomedical, computer science, review)에서도 성능이 잘 나올지는 의문입니다. 따라서 해당 논문에서는 사전학습된 모델이 특정 도메인에 여전히 효과가 좋은지에 대해 다루었습니다. 이 논문의 결론은 간단합니다. 특정 도메인에서 fine-tuning만 하지 말고 MLM(Masked language modeling)도 하면 성능이 잘 나온다입니다. 간단하지만 이것이 작동하는 이유와 실험 과정을..
[Python] Faiss, 효율적인 유사도 검색 엔진
·
Python
Faiss(Facebook AI Similarity Search)는 페이스북에서 만든 유사도 검색 라이브러리입니다. GPU를 사용할 수 있고 C++ 기반이기 때문에 sklearn보다 빠르다는 장점이 있습니다. 0. 설치 pip install faiss-gpu or pip install faiss-cpu 1. 벡터 생성 후 index 구축 ※ faiss는 index라는 객체를 사용합니다. 쉽게 말해서 db라고 생각하면 될 것 같습니다. import numpy as np import faiss # 5차원 벡터 10000개 생성 db_vector = np.array(np.random.random((10000,5)),np.float32) # 유사도 찾을 벡터 query_vector = np.array(np.ra..
[일상] 이북리더기 크레마s 후기
·
일상
구매 이유. 한 시간이 넘는 출퇴근 시간에 책을 보면 좋을 것 같다고 생각해서 스마트폰으로 ebook을 보기 시작했습니다. 그러나 화면 이 작아 눈이 금방 피로해지고 그렇다고 책이나 아이패드를 들고 다니기에는 크기가 커서 이북 리더기가 있으면 좋겠다고 생각했습니다. 그 후로 눈에 들어온 것이 크레마s, 교보sam, 리디페이퍼였는데 크레마s를 선택한 이유는 1. 가볍고(150g) 휴대성이(6인치) 좋음 2. 다양한 앱 지원 3. 그나마 최신 하드웨어, 소프트웨어로 반응속도가 빠름 4. c타입 충전 이 4가지 이유가 컸습니다. 이제 쓰면서 느꼈던 장단점을 설명해드리겠습니다. 장점. 1. 눈이 덜 피로하고 가독성이 좋습니다. 과학적으로 전자잉크(e-ink)가 더 편하다는 증거는 입증되지 않았다고 합니다. 아마..
[Python] 페이지랭크 알고리즘
·
Python
페이지랭크 알고리즘은 구글의 초기 검색 엔진 알고리즘입니다. 이 알고리즘을 통해 각 웹사이트에 점수를 부여하고 점수 가 높은 순으로 사용자에게 보이게 됩니다. 많은 웹사이트에서 내 웹사이트를 링크할수록, 점수가 높은 다른 웹사이트에 서 내 웹사이트를 링크할수록 내 웹사이트의 점수는 높아지게 됩니다. 위 예시에서 B는 많은 링크가 걸려 점수가 높고, C는 점수가 높은 B로부터 링크가 걸렸기 때문에 점수가 높습니다. 점수를 구하는 방법은 다음과 같습니다. 간단한 예시를 통해 계산해보겠습니다. $$r_{j}=\sum_{i \in N_{i n}(j)}\left(\alpha \frac{r_{i}}{d_{o u t}(i)}\right)+(1-\alpha) \frac{1}{|V|}$$ A, B, C, D 4개의 페이..