인과추론은 T 라는 변수가 Y 라는 결과의 원인인지 인과성을 파악하는 방법론입니다. 인과관계를 파악하기 다양한 방법론이 있지만, 그 중 하나는 오늘 알아볼 Potential Outcome Framework(잠재적 결과) 분석 방법론이 있습니다. 그리고, 변수간의 그래프를 그려 인과관계를 추정하는 Structural Causal Model이라는 인과추론 방식이 존재합니다.
두 방법론은 모두 인과추론을 하는 방법일 뿐입니다. 그 중, 오늘은 잠재적 결과 분석 방법론에 대해 알아볼 예정입니다!
1. 잠재적 결과(Potential Outcome)
잠재적 결과(Potential Outcome) 는 치료를 받은 그룹이 만약, 실제 치료를 받지 않았더라면? 어떤 결과가 도출되었을까? 라는 것을 의미합니다.(=실제로 일어나지 않았기 때문에 잠재적입니다.)
상상력을 동원할 때 입니다! 우리는 신약을 받은 그룹 A은 사망률이 B에 비해 상대적으로 낮다는 것을 관측할 수 있었습니다. 그렇다면, A 그룹에게 만약 치료를 가하지 않았더라면 결과가 어떻게 될까요? 이것이 바로 잠재적 결과. 그리고, 인과추론에서는 Counterfactual 이라는 Term(용어) 으로 부르고 있습니다.
T를 Treatment 치료라고 정의하고, Yi 는 observed outcome variable(치료를 했을 때 관측할 수 있는 결과) 라고 정의해봅시다. 그리고, 우린 실제 신약의 효과가 어느 환경이나 어떤 조건에서든 얼마나의 영향력을 가지는질 알기 원하죠
즉,인과성을 알고 싶습니다.
이를 쉽게 파악하기 위해서는 치료를 가한 그룹에게 만약 치료를 가하지 않았을때의 그 결과만을 관측하면 됩니다.
하지만, 여기서 인과추론의 근본적 문제(Fundamental problem of causal Inference)가 발생하게 됩니다. 우리는 T1(치료를 시행한) 그룹에게 과거에 이미 신약을 주입했으니 T1 그룹이 만약(What if?) 치료를 받지 않았더라면 어떤 결과가 나올까? 라는 것을 파악할 수가 없죠.
그리고, 여기서 잠재적 결과(Potential Outcome Framework) 라는 개념과 용어가 나오게 됩니다.
1. 치료를 받은 그룹이 만약! 치료를 받지 않았더라면
2. 동질그룹에서 발생한 치료 효과만을 순수하게 파악하였을 때 우리는 치료의 인과성을 파악하게 되는 것이죠.
3. 그리고, 우리는 Treatment 에게 치료를 가한 결과와 인과성을 추론해보고 싶다라는 목적을 가진 방법론입니다.
이를 설명하기 위해 Potential Framework 에서는 몇가지 정의와 용어들이 나옵니다.
1. 평균 치료 효과(Average Treamtment Effect), ITE, ATE
1-1. ITE (Individual Treatment Effect)
ITE 는 치료를 받은 그룹 개인(Individual) 의 결과 - 치료를 받은 개인이 만약 치료를 받지 않았더라면 도출될 결과를 의미합니다. 우리가 인과추론을 통해 알고 싶은 신약의 효과인 것이죠. 그러나! 앞서 언급한 인과추론의 근본적 문제때문에 해당 결과는 직접적으로 관측하지 못합니다.
1-2. ATT (Average Treatment Effect on the Treated)
ATT 는 Treatment 에 대한 평균치료효과입니다. 치료를 받은 그룹에게 치료를 했을 때와, 만약 치료를 하지 않았을 때(Counterfactual )결과의 차이의 평균을 구한 값 입니다. 해당 결과 이미 신약 치료를 주입한 이유이기 때문에, 직접적으로 그 결과를 관측할 수 없습니다.
1-3. ATE (Average Treatment Effect)
ATE 는 평균치료 효과라는 용어로서 치료를 받은 그룹(Treatment Group) 과 치료를 받지 않은 그룹(Control Group의 평균의 차이를 의미합니다. Potential Framework 에서는 이 ATE를 기점으로 인과성을 관측하는 접근 방식을 취합니다.
만약, 치료를 받은 Treatment 그룹이 치료를 받지 않았을 때의 그 효과성(=Counterfactual) 만을 관측한다면 우리는 신약의 효과와 인과성을 파악할 수 있을 것 입니다. 하지만, 그것은 현실세계에서 발생할 수 없는 결과이기 때문에 우리는 Treatment 그룹과 가장 비슷한 특성을 가진 Control 그룹과의 차이를 통해 효과의 평균크기를 관측하려 합니다.
하지만, 아시다시피 Treatment 와 Control 그룹의 평균 차이만을 가지고 신약의 효과는 사망률을 n% 낮추는구나! 라고 판단하면 안됩니다.
하지만, 두 그룹간 평균의 차이는 인과성이 아닌 연관성(Assocation) 이기 때문입니다.
2. 연관성
연관성은 인과관계를 의미하지 않는다.
첫번째 인과추론 글에서도 예시를 들었지만, 신발을 신고자는 것이 다음날 두통에 영향이 있다는 인과관계가 아닙니다.
신발을 신고 잔 사람들 중에는 그 전날 술을 많이 마신 헤비드렁커 그룹이 많이 포함되었기 때문에 그들이 결과를 왜곡 시킬 수도 있는 것이죠.
우리는 인과관계를 파악하기 위해 연관성을 최대한 통제하고, T(Treatment) 와 Y(결과)만을 관측하길 원합니다. 그리고, 여기서 위에서 배운 ATE, ATT, Potential Outcocomes 를 적용할 예정입니다. 이처럼, 인과추론에서는 연관성이 인과성으로 왜곡되는 것을 막기 위해 '인과추론 소개'에서 배운 교란변수를 통제한다던가, 연관성을 끊기 위한 방법론을 제안합니다.
이번엔, Potential Framework 분석 방법론, ATT, ATE 와 친해지기 위해 다른 예시로 한번 접근해보겠습니다!
(긴글이 싫다면 패스 하고, Selection Bias로 넘어가도 됩니다!)
태블릿 PC 는 학교성적에 악영향을 준다는 가설을 설정해보겠습니다. 그리고, 태블릿 PC와 학교성적간의 인과성을 추론해보겠습니다.
만약, 우리가 전지전능한 신이라서 치료를 가하지 않은 그룹의 결과를 알 수 있다고 가정! 해봅시다.
1. 테블릿을 보유한 학생들의 전체 평균, ATE=(−50+0−200+50)/4=−50 으로서 그들의 ATE는 50점이 감소되었음을 알 수 있습니다.
2. 태블릿을 원래 보유하고 있던 치료군 학생들의 성적은 ATT=(−200+50)/2=−75 입니다. 태블릿이 학생들의 성적을 평균적으로 75점 감소 시켰습니다.
그러나, 위의 데이터프레임은 어찌보면 사실이 아니죠?
원래, 결과는 이와 같습니다. 알수 없기 때문에 Null 값이 Dataframe을 채우고 있죠. 하지만, 우리가 실제로 A/B 그룹군을 나눈 태블릿(Treatment) 의 효과를 입증한 사실을 보자면,
ATE = (600 + 750) / 2 - (500 + 600) / 2 = 125로서, 태블릿 PC의 ATE는 125입니다. 이는 위에서 추론한 결과와 아주 다릅니다.
왜 그럴까요? 앞선 Potential Outcomes 는 잠재적 결과이며, 가정한 것이기 때문에 현실에서는 직접 적으로 관측할 수 없는 것이기 때문이죠.
이는 위에서 언급한 Potential Framework 방식의 근본적 문제(Fundamental Problem) 이자, What IF 그 자체이기 때문입니다!
Fundamental Problem
Potential Outcome Framework 속에서 우리는 관측할 수 없는 것(Counterfactual)을 가정하고 있습니다. 또한, 앞서 말했듯 ITE(개인의 치료 효과)는 구할 수 없습니다. 치료가 끝난 개인에게, 개인의 치료 효과를 실제로 관측하는 것은 불가능 하기 떄문이죠.
대신, Treatment 이 만약 치료를 받지 않았더라면 나올 효과(Conterfactual) 를 Treatment 군과 가장 비교가능한 비슷한 특징을 가진 Control 그룹과의 결과차이(ATE) 를 관측하여 신약의 효과를 판단하려 합니다.
그렇지만, 여기서 선택편향(Selection Bias) 라는 용어가 나오게 됩니다. 선택편향은 위 태블릿 PC 예시로 설명하자면, 태블릿 PC를 선택한 사람은 그 이유가 있기 때문에 본인들이 태블릿 PC를 선택한 이유가 있을 것이다. 라는 의미입니다.
3. 선택 편향(Selection Bias)
Selection Bias (선택편향) 은 Treatment 를 선택하는 사람들은 이유가 있어서 Treatment를 선택하는 다른 요인이 있다는 것입니다.
그리고, 이 요인은 교란 변수(Confounding) 같은 원인과 결과에 영향을 주는 요인이며, 우리는 이를 통제하여야만 인과성을 추론할 수 있다는 것 입니다.
예시를 하나 들어보겠습니다.
우리가 해당 태블릿 보유의 효과 실험을 집행할 때, 실험군을 랜덤하게 배정하지 않는 이상 태블릿을 보유한 사람은 본인들이 직접 태블릿을 선택한 것이며 이는 이미 그들이 선택한 특성입니다.
예를 들어, 태블릿을 가진 학생들이 평소보다 부유한 학생들의 특징을 가지고 있을 수도 있죠. 혹은, 영상 시청을 굉장히 좋아하는 학생일 수도 있기 때문에, 그들은 랜덤하게 배정된 것이 아니라 본인들의 의지를 가지고 태블릿을 구매한 것 입니다.
우리는 이미 실험군과 컨트롤 그룹간의 선택적 특성이 차이가 있음에도 불구한 결과를 가지고 인과추론을 하기 때문에 문제가 되는 것이다라고 설명합니다.
태블릿을 보유한 사람과 태블릿을 보유하지 않는 사람의 특성은 분명히 다르다. 태블릿을 가진 유저는 일반적으로 유투브나 디지털 컨텐츠를 좋아하는 사람이기 때문이고, 그렇지 않은 사람은 그런 컨텐츠를 덜 좋아하는 사람일텐데, 이런 요소들은 그들이 직접 선택한 것이고 이런 특성이 Y 결과에 영향을 미쳤을 수도 있다.
그러나, 우리는 T(태블릿) 만을 가지고 그 Causal Effect 를 추정하기 때문에 문제가 생기는 것이다. 라고 설명합니다. 여기에는 Selection Bias(선택 편향) 이 존재하기 때문이죠.
선택편향은 Linear Regression 모델의 Error Term 과도 같다고 의미합니다. 말 그대로, 관측하기 힘든 요인 중 하나이며 비교할 수 없는 결과이기 때문이죠. 관측하기 힘든 변수(Unobserved Confounders)가 존재하는 것 이죠.
위의 사진속 Observed effect of the treatment는 결국 치료의 효과입니다. 그리고 인과성이죠. 인과성은 Causal Effect(=ATT) + Selection Bias 을 계산하면 나올 수 있는 결과라고 설명하고 있습니다. 또한, 치료 효과를 관측하기 위해서는 Selection Bias라는 Error 값이 무시할 수 있는 미세한 수치라면, Selection Bias를 무시할 수 있다고도 설명하고 있습니다.
그래서, Potential outcome Framework 분석 방법론에서는 인과성을 추론하기 위해 Selection Bias를 없애는 것을 목적으로 합니다.
선택 편향을 없애기 위해서는 Ceteris Paribus(다른 모든 조건이 동일하다면 = Treatment 를 제외한 모든 조건이 동일하다) 는 것을 충족하다면 선택 편향 또한 없앨 수 있다고 말합니다.
만약, 두 그룹간의 특성이 동일하다면 Treatment 에게 만약 효과를 적용하지 않았더라면 나올 수 있는 Conterfactual 의 효과는 Control 그룹(치료를 가하지 않은 그룹)의 결과와 비슷할 수도 있기 때문이죠.
4. 정리
Potential Outcomes Framework 는 인과성이라 부르는(Treatment 효과)를 알기 위해 Selection Bias를 제거하고,Treatment를 받은 사람과 그렇지 않은 사람을 비교할 수 있는 방법을 찾는 것 입니다.
인과성을 파악하기 위해 가장 좋은 방법은 Treatment 그룹에게 치료를 가하지 않았을 효과(Conterfactual)을 알아야 합니다.
이를 알기 위해선, 개인이 치료를 받은 결과와 아닌 결과의 차이 (ITE)를 관측하는 것이 가장 확실한 방법일 것 입니다. 하지만, 우리는 그 결과를 관측할 수 없습니다.
때문에, Treatment 그룹과 Control 그룹의 두 그룹간의 ATE를 구합니다. 그렇지만, 위에서 언급한 Selection Bias가 발생하게 됩니다. Treatment 그룹은 본인들이 치료를 선택한(Selection Bias) 이유가 있기 때문이죠. 그리고 이 선택 편향은 결과를 교란 시키는 것 입니다.
이 Selection Bias를 최소화하기 위해서는 Treatment 그룹과 가장 비슷한 Control 그룹의 선별하여, 그 결과를 비교합니다 이는 Ceteris Paribus(다른 모든 조건이 동일하다)면 Selection Bias(확증 편향 = Erorr Term)을 최소화하거나 제거할 수 있다. 라는 것을 전제로 인과성을 판단합니다.
위와 같은 방법론으로 인과성을 판단하는 것이 이 Potential Framework 인과추론 디자인 프레임 워크라고 설명할 수 있습니다.
개인적으로 이해하는데 어려웠던 Potentialoutcome Framework 를 정리해보았는데요!
다음 시간에는 위와 같은 Treatment 와 Control 그룹과의 차이를 쉽게 구할 수 있는 Randomized Controlled Trial 대해서 알아보도록 하겠습니다!
기타 용어 및 개념 정리
* ITE 는 추정할 수 없다. (특정 개인에 대한 Counterfactual = 잠재적 결과) 를 구할 순 없다. 그러나, 평균적인 인과적인 효과는 추정할 수 있다. Potentail Outcome Framework 에서 ATE 에 중점을 두어 두 그룹간( 치료/비치료 그룹) 간의 차이를 구한다.
* Potentail Outcome 의 Fundamental Problem of Causal Inference : 치료를 받았어야 하는 그룹에게 치료를 가하지 않았더라면? 치료를 받지 않은 그룹에게 치료를 가했더라면? 효과의 인과성을 알고 싶으나, 실제로 발생하지 않았다.
* 그러나, Control 그룹에게도, Treatment 그룹에게도 미친 영향만큼을 적용한다면 ATE 를 구할 수 있는 것이 Potential Outcome Framework 에서의 인과성을 추론하는 방법이다.
* Selection Bias : 현실에서 실제 치료를 받지 않은 그룹(Treatment if not Treated)과 컨트롤 그룹과의 차이점.
-- 사람들을 치료를 받지(쿠폰을 적용할지 안할지) 를 우리가 선택하기 때문에, 편향이 생기는 것이다.
-- 인과성을 추론하기 위해선, 치료를 시행한 1과 0 그룹의 결과만을 비교하는 것이 아니다. 두 그룹은 비슷해야 한다. Comparable except a Confounder X and adoption W
-- 관측할 수 있는 치료의 효과 = Causal Effect[(치료를 받은 그룹의 결과) - (치료 받은 그룹이 만약, 치료를 받지 않았더라면 도출 될 결과)] + Selection Bias[(치료 받은 그룹이, 만약 치료 받지 않았더라면 도출 될 결과) - (치료 받지 않은 그룹이, 치료를 받지 않아 도출 된 결과)]
-- 확증편향 = Counterfactual - Yi(0)
-- 그래서, 인과추론에서는 Ceteris Paribus(다른 모든 조건이 동일하다면) 확증편향은 제거된다.
* Ignorability = Exchangeability = Unconfounness = Exogenity 를 비슷하게 부른다. 포텐셜 프레임 워크 가정에서는 Confounder 를 통제하는 조건을 충족한다면, 잠재적 결과에서는 ATE 를 구할 수 있다는 조건을 가지고 있다.
* Counterfactual 을 만드는 것도 하나의 분석 방법론이다.
- 예를 들어, T(1) 에서도 T(0) 과 비슷한 성향의 그룹을 Random 하게 나누는 것이 하나의 방법이다.
- Observed effect of treatment = ATT + Selection Bias 로 Treatment 의 인과효과를 파악한다는 것을 목적으로 접근한다. 또한, Treatment 를 제외한 다른 모든 조건이 동일하다면 확증편향(Error Term)을 최소화하거나 제거할 수 있다. 라는 인과추론 디자인 프레임 워크를 갖는 것이 바로 이 Potential framework 입니다.