0. 인과추론의 양대산맥
인과추론 방식의 양대산맥으로 Potential Outcomes Framework과 Structural Causal Model가 있습니다. 전자는 잠재적 결과를 이용하여 인과관계를 분석하려는 것으로 사회과학 분야를 바탕으로 발전되어 왔으며 후자는 인과관계로 표현할 수 있는 변수들을 인과그래프로 모델링한 후, 인과관계를 분석하려는 방식으로 컴퓨터과학 분야를 바탕으로 발전되었다고 합니다.
1. 잠재적 결과 프레임워크 (Potential Outcome Framework)
이번에는 인과추론 방식 중 하나인 잠재적 결과 프레임워크에 대해 알아보겠습니다. 말 그대로 인과효과를 실제 결과와 잠재적 결과의 차이로 정의하는 접근입니다.
1-1. 인과추론의 근본적인 문제
인과관계를 추론하는 가장 확실한 방법은 ‘실제 결과’와 ‘잠재적 결과’를 비교하는 것입니다. 잠재적 결과를 반사실(Counterfactual)이라고도 하는데, 문제는 이것을 실제로 구하기 어렵다는 것입니다. 위 예시에서 개개인이 독서를 했을 때와 안 했을 때를 동시에 구하기 어렵듯이 말이죠. 하지만 대조군(control group)은 구하기 쉽기 때문에 대조군의 결과를 활용할 수 있습니다.
다음과 같이 대조군의 평균을 이용해 잠재적 결과를 도출할 수 있습니다. 이것을 ATE(Average Treatment Effect)라고 합니다. 어찌보면 결측치(missing value)를 해결하는 것과 같습니다. 하지만 여기에도 문제가 있습니다. 바로 대조군(control group)과 반사실(counterfactual)의 차이가 거의 없어야 한다는 것입니다. 이 차이를 선택 편향(selection bias)라고 부릅니다.
1-2. 선택 편향 (selection bias)
예를 들어 Counterfactual은 독서를 좋아하는 성향을 가지고, Control Group은 독서를 싫어하는 성향을 가지면 선택 편향이 커지게 됩니다. 이것은 인과 추론을 어렵게 만들기 때문에 이러한 선택 편향을 줄여 현실과 반사실(잠재적 결과)를 비교하여 인과효과를 파악하는 사고의 틀을 잠재적 결과 프레임워크(Potential Outcome Framework)라고 합니다.
즉 “ceteris paribus(다른 모든 조건이 동일한다면)”가 전제되어야 하는 것입니다. 복용약의 효과, 마케팅 캠페인의 효과 등을 이러한 사고의 틀을 가지고 추정할 수 있습니다.
다음은 선택 편향을 줄이기 위한 방법으로 가장 robust 한 연구 모형인 무작위 통제 실험을 알아보겠습니다.
2. 무작위 통제 실험 (Randomized Control Trial, RCT)
피라미드 위에 위치할수록 수준이 높으며 아래에 위치할수록 해당 모형을 통해 인과관계를 증명하는 것이 더 까다롭다고 할 수 있습니다. 가장 수준이 높은 Meta-Analysis는 앙상블 같이 여러 인과추론의 결과들을 종합하여 결론을 내리는 분석을 말합니다. 따라서 단일 방법론에서 가장 수준이 높은 모형은 무작위 통제실험 입니다. 무작위 통제 실험은 기본적으로 실험군(Treatment)과 대조군(Control)을 무작위로 나눈 뒤 비교함으로써 인과적 효과를 측정합니다.
2-1. 예시) 노트북 혹은 태블릿을 사용하는 것이 학생의 성적에 어떠한 영향을 미치는가
50개 반을 random으로 세 집단으로 분리
(1): 노트북과 태블릿 PC 사용 금지(Control)
(2): 노트북과 태블릿 PC 사용 가능(Treatment 1)
(3): 노트북과 태블릿 PC 약간의 제약을 두고 사용 가능(Treatment 2)
위 표는 (1), (2), (3),세 집단이 남녀 비율, 인종 비율, 나이, 학교 성적 등 다양한 특성들에 있어 유의미한 차이를 보이지 않는다는 것을 보여줍니다. 이처럼 결과에 영향을 줄 수 있는 교란 요인(confounder)을 잘 통제한 상태에서, 오직 처치 변수(treatment)에만 변화를 주어 비교할 수 있는 상황이 바로 무작위 통제 실험에서 기대하는 이상적인 모습입니다.
하지만, 현실에서는 무작위 통제실험을 진행하기 어려운 경우가 많습니다. 예를 들어, 치료제의 효과를 검증하기 위해 특정 집단에게만 치료제를 제공하고, 치료제를 제공받지 못한 집단에서 증상이 악화되거나 사망자가 나온다면, 이는 심각한 윤리적 문제와도 연결될 것입니다. 따라서 피라미드에서 보았듯이 무작위 통제 실험을 실행할 수 없을 때 활용할 수 있는 다른 방법들로
- 실험과 유사한 상황을 활용해 인과적 효과를 분석하는 준실험(Quasi-experiment)
- 준실험마저 없을 경우 인과 추론을 방해하는 내생성(endogeneity)을 제거하기 위한 인위적인 통계적인 도구로 도구 변수(Instrumental Variable)를 활용하거나
- 도구 변수를 찾기 힘들 경우 회귀 분석(Regression)과 매칭(Matching) 방법론을 활용할 수 있습니다.
다음은 이런 모형들에 대해서 알아보겠습니다.
https://www.youtube.com/playlist?list=PLKKkeayRo4PV_6-nbBgmUNOSpG1OO49M3
'Causal Inference' 카테고리의 다른 글
[Causal Inference] 인과 추론의 개요와 어려움 (0) | 2022.11.13 |
---|