0. 인과 추론?
요즘 여러 산업에서 AI/ML을 활용하여 문제를 해결해나가고 있는데요, 대부분의 목적은 예측(prediction)에 있습니다. 코로나 감염 추세가 어떻게 될지, 상품 추천의 결과가 어떻게 될지, 주가가 어떻게 될지 등에 대해 말이죠. 하지만 인과관계를 알고자 만약에라는 질문을 하면 이에 대해서는 답을 하기가 어렵습니다. 만약에 백신을 안 맞으면 어떻게 될지, 만약 마케팅 프로모션을 진행하지 않으면 어떻게 될지, 만약 그때 주식을 샀으면 어떻게 될지 말이죠. 예시와 같이 특정 조치(treatment) X가 Y라는 결과에 미치는 영향을 추론하는 것이 인과 추론입니다. 검증된 인과관계는 데이터 분석가로부터 납득할 수 있는 스토리텔링을 할 수 있게 해 주며 기업의 의사결정에 도움이 됩니다. 따라서 모든 사람들이 공통으로 이해할 수 있는 체계적인 검증 수단이 필요하며 그런 방법론, 프레임워크에 대해 설명하고자 합니다.
1. 인과 추론 VS 예측
데이터 분석의 접근 방식에는 input-oriented approach와 output-oriented approach가 있습니다.
input-oriented approach는 input의 조정을 통해 원하는 결과를 도출하는 것이 목적입니다. 예를 들면 백신을 맞는 것이 사망률을 낮추는지, 최저임금을 올리면 실업률이 올라가는지의 문제입니다. 이 경우에는 인과 추론이 적절합 방법입니다.
output-oriented approach는 예측하고자 하는 값(target)에 최대한 가까운 output을 얻는 것이 목적입니다. 예를 들면 사진을 보고 개인지 고양이인지 판별하는 문제입니다. 이 경우에는 예측을 위한 모델을 사용합니다.
이러한 두 방식은 배타적인 것이 아닌 상호보완적입니다. 인과 추론을 통해 얻은 원인 변수에 대한 이해를 예측에 활용할 수 있고, 예측의 과정에서 중요한 역할을 하는 변수를 인과 추론에서 원인 변수로 검토할 수도 있기 때문입니다. 따라서 어디에 초점을 두는지 목적에 따라 적절한 방법을 써야 할 것 같습니다.
우리가 자주 쓰는 Boosting, Decision Tree, DNN 등의 머신러닝 방법론은 모두 상관관계(correlation)를 기반으로 데이터에서 나타나는 패턴을 예측하는 것을 목적으로 하며, 인과관계 추론에 있어서는 한계가 있습니다. 하지만 최근에는 Causal Forest, Double Machine Learning 등과 같이 머신러닝을 활용한 인과 추론 모델들이 연구되고 있고 앞으로도 이 분야의 연구가 활발할 것으로 보입니다.
2. 인과 추론의 어려움
예시 1) 최저 임금을 올리면 고용이 감소할까?
1990년대 초 미국의 뉴저지 주에서는 최저 임금이 인상되었지만, 인접한 펜실베이니아 주에서는 최저 임금이 그대로 유지되었습니다. 두 주의 경계에 있는 패스트푸드 음식점들을 대상으로 분석한 결과, 최저 임금의 인상은 고용의 감소를 야기하지 않는 것으로 나타났습니다. 이 연구를 통해 David Card 교수는 21년 노벨 경제학상을 수상했습니다. 하지만 최저임금과 고용률의 관계에 대해 논란이 끝난것은 아닙니다. 국가별 상황, 시대, 노동 시장 등의 외적 타당성이 존재하기 때문입니다. 이렇듯 사회적 현상에서 유일한 원인 정답을 찾기 어렵듯이 다양한 상황에서 특정 요인을 도출해내는 것은 난제라고 볼 수 있습니다.
예시 2) 정말 추천 시스템 때문에 제품 판매가 되었나?
사용자 A와 사용자 B가 유사하여 추천 시스템을 통해 사용자 B에게 생수를 추천했고 사용자 B는 생수를 구매했다고 봅시다. 그렇다면 정말 추천 시스템 때문에 사용자 B가 생수를 구매했을까요? 사용자 B는 그냥 나뒀어도 생수를 샀지 않았을까요? 추천 시스템에 의해 구매로 이어진 것과 그저 취향, 특성이 비슷해서 구매로 이어진 것은 데이터로 구분하기 힘들어 보입니다. 그렇기 때문에 추천 시스템을 통한 상품 추천과 사용자 구매 간의 관계를 인과관계로 단정 지을 수 없습니다.
예시 3) 반려동물을 키우면 우울증이 감소되나?
그림과 같이 반려동물을 키우는 집단의 우울증이 83%로 반려동물을 키우지 않는 집단보다 높았다고 해봅시다.
'그렇다면 반려동물을 키우는 것이 우울증을 증가시키네?'라고 생각할 수 있지만 이러한 해석은 사실 선후 관계를 착각했을 때 발생할 수 있는 결과입니다. 애초에 우울증이 있는 사람이 정서적 안정을 위해 반려동물을 키울 수 있기 때문입니다.
따라서 우울증이 있는 사람(X=1)과 우울증이 없는 사람(X=0)으로 나눠서 다시 비교해보겠습니다.
그림과 같이 두 집단 모두 우울증이 감소했습니다. 이 현상을 심슨의 역설(Simpson's paradox)이라고 부릅니다. 전체에서 보면 집단 별로 관찰할 수 있는 추세나 경향이 반대로 나타날 수 있다는 것입니다.
예시 4) 어떤 치료제를 써야 하나?
사망률 | 경미한 증상 | 심각한 증상 | 전체 |
치료제 A | 15% (195/1300) |
30% (30/100) |
16.1% (225/1400) |
치료제 B | 10% (10/100) |
20% (100/500) |
18.3% (110/600) |
전체적으로 봤을 때는 치료제 A가 사망률이 낮아서 좋아 보이지만, 증상별로 봤을 때는 치료제 B가 사망률이 낮습니다. 이럴 때는 어떤 치료제를 써야 할까요? 이때는 '증상'이라는 변수가 독립 변수(치료제), 종속 변수(사망률)와 어떤 관계인지에 따라 달라질 수 있습니다.
1) '증상'이 치료제와 사망률에 모두 영향을 미치는 교란 변수(cofounder)인 경우
사망률 | 경미한 증상 | 심각한 증상 | 전체 | Causal Effect |
치료제 A | 15% (195/1300) |
30% (30/100) |
16.1% (225/1400) |
19.5% |
치료제 B | 10% (10/100) |
20% (100/500) |
18.3% (110/600) |
13.0% |
증상별로 선호하는 치료제가 다르고 사망률이 다르기 때문에 증상이라는 변수가 치료제와 사망률에 모두 영향을 끼치는 교란 변수라고 주장하며 증상별 집단의 비율을 고려해봅시다.
경미한 증상을 가지는 집단과 심각한 증상을 가지는 집단의 비율은 7(1400):3(600) 따라서,
치료제 A의 인과적 효과는 15% x 0.7 + 30% x 0.3 = 19.5%
치료제 B의 인과적 효과는 10% x 0.7 + 20% x 0.3 = 13%. 즉 치료제 B를 선택해야 합니다.
2) '증상'이 치료제와 사망률의 관계에서 중간에 위치한 매개 변수(mediator)인 경우
사망률 | 경미한 증상 | 심각한 증상 | 전체 | Causal Effect |
치료제 A | 15% (195/1300) |
30% (30/100) |
16.1% (225/1400) |
16.1% |
치료제 B | 10% (10/100) |
20% (100/500) |
18.3% (110/600) |
18.3% |
치료제가 증상에 영향을 주며, 증상이 다시 사망률에 영향을 주는 구조입니다. 이러한 경우 치료제를 처방받은 집단별로 경미한 증상과 심각한 증상의 비율을 고려해 사망률을 계산합니다.
치료제 A의 증상별 비율은 13(1300):1(100)
따라서 치료제 A의 인과적 효과는 15% x (13/14) + 30% x (1/14) = 16.1%
치료제 B의 증상별 비율은 1(100):5(500)
따라서 치료제 B의 인과적 효과는 10% x (1/6) + 20% x (5/6) = 18.1%. 즉 치료제 A를 선택해야 합니다.
이처럼 치료제 A가 나은지 B가 나은지 결정하고자 할 때, 가진 데이터로는 대답할 수 없으며, 데이터의 관계, 인과 구조에 따라 결과가 다르게 나타나는 것을 염두해야 합니다.
3. Everything is Engodenous (모든 것은 내생적이다)
위 예시들에서 설명한 인과 추론의 어려움들을 한마디로 표현하면 내생성(endogeneity)입니다. 현실에서 모든 것들은 복잡하게 얽혀 있어서 내생적으로 영향을 주고받기 때문에 인과관계를 규명하는 것이 매우 까다로운 이유입니다. 따라서 인과 추론은 내생성을 통제하고 순수한 원인과 결과 사이의 관계만을 파악하고자 하는 방법론입니다. 이를 위한 여러 가지 방법들을 추후 소개하겠습니다.
https://www.youtube.com/playlist?list=PLKKkeayRo4PV_6-nbBgmUNOSpG1OO49M3
'Causal Inference' 카테고리의 다른 글
[Causal Inference] 잠재적 결과 프레임워크와 무작위 통제실험 (0) | 2022.11.27 |
---|