카테고리 없음

인과추론 스터디 3주차: 성향점수와 이질적 처치효과

지난주 2024. 9. 24. 20:11

5장. 성향점수

성향점수 가중치: 직교화처럼 잔차를 생성하는 대신, 처치 배정 메커니즘을 모델링하고 모델 예측을 사용하여 데이터를 재조정

이진이나 이산형 처치가 있을 때에 적합한 방법들~!

 

5.1 관리자 교육의 효과

개인 기여자(IC) --> 관리직으로 전환하는 경우

'관리직'은 다른 기술이 필요한 경우가 많다 --> 부담

예. 관리자들을 무작위로 프로그램에 참여시켜보고, 관리자와 그렇지 않은 사람들 참여도 비교

* 불응) 의도한 처치를 받지 못하는 것

 

 

회사 관리자에 대한 데이터와 공변량

처치변수 = intervention

결과변수 = 관리자와 일하는 직원의 평균 참여점수 = engagement_Score

 

기타 공변량

>> 관리자 교육과 직원 참여도 간의 인과관계를 추정할 공변량 일부 또는 전부를 조절함

으로써 편향을 줄이거나 완전히 제거 가능

 

5.2 회귀분석과 보정

1단계 ) 회귀분석(신뢰할 수 있는 기준 모델)을 사용하여 교란요인 보정

2단계 ) 성향점수 가중치

--> 목표: 성향점수 가중치 추정값이 회귀 추정값과 같은지 비교 및 확인

회귀 결과

 

처치가 무작위가 아니므로 편향됨 --> 공변량을 보정하여 모델 추정, 편향 줄인다.

** 공변량은 종속변수에 대하여, 독립변수와 기타 잡음인자들이 공유하는 변량(실험자가 통제해야할 대상)

긍정편향 : 효과 추정값 < 이전에 얻은 추정값

--> 이미 직원 참여도가 높은 관리자가 교육 프로그램에 많이 참여

 

5.3 성향점수

성향점수 가중치 <-- 교란 요인 X직접 통제할 필요 없이, 조건부 독립성 만족할 있다

교란요인을 통제하는 대신, 균형점수(=성향점수 = 처치 받을 조건부 확률)를 통제해도 충분

 

+ 성향점수는 차원 축소 기법임.

고차원일 있는 X 조건부로 설정하 대신, 성향점수를 조건부로 두고 X 유입되는 뒷문 경로를 차단

성향점수를 통제한다 = X를 직접 통제할 때와 같은 효과

예. 관리자 프로그램 참여가 높은 관리자일수록 교육 참여할 가능성이 높다.

그러나 험군과 대조군에서 각각 명씩 명의 관리자를 뽑고, 이때 처치 받을 확률이 동일하다면 두 그룹 비교 가능

이때 처치받을 확률이 똑같다 = 우연 = 무작위 배정

 

5.3.1 성향점수추정

성향점수 = 알수 없는 이상적인 값 --> 추정할 때에 로지스틱 회귀분석 좋음

 

5.3.2 성향점수와 직교화

 FWL 정리: 선형회귀도 성향점수 추정과 매우 비슷하며 편향 제거 단계에서 E[TIX] 추정

OLS 성향점수 추정과 매우 비슷하게 처치 배정 매커니즘을 모델링

==> 선형회귀에서 교란 요인 X 보정하기 위해 성향점수 사용 있음

 

5.3.3 성향점수매칭(PSM)

매칭 추정량: 성향점수 통제 방법 중 하나 

특징이 비슷한 실험 대상의 짝을 찾아 실험군과 대조군을 비교 (예. K 최근접 이웃 알고리즘)

1단계) 실험군에 KNN 모델 적합, 대조군 Y1을 대체

2단계)대조군에 KNN 모델을 적합시키고 실험군의 Y0 대체

--> 대조군의 짝이 찾아짐 

--> ATE 추정 가능

 

주의) 매칭 추정량은 편향될 수 있으며 X의 차원이 클수록 편향이 커진다.!!

이때 편향을 피하고 매칭을 사용하기 위해서는 다음과 같이 편향 보정식을 적용

보정식

5.3.4 역확률 가중치(IPW)

역확률 가중치: 치의 역확률 따라 데이터의 가중치를 재조정 하여 해당 데이터에서 처치가 무작위 배정된 것처럼 보이게 함

표본에 가중치를 부여하고 모든 실험 대상이 처치 받았을 경우와 비슷한 유사 모집단

실험군) 처치 받을 확률의 역수역확률 조정 --> 드문 사례더라도, 처치 받은 대상에게 높은 가중치를 부여

성향점수가 낮을 교육받은 관리자T = 1 높은 가중치

교육받은 것처럼 이는 교육받지 않은 관리자에게 높은 중요도를 부여하고 있음

공변량 X 보정하지 않고 단순히 얻은 결과보다 ATE 작음을 다시 확인

처치의 변동이 부분에 회귀분석이 가중치를 부여

 

5.3.4 역확률 가중치(IPW)의 분산

IPW 의 신뢰구간을 얻는 방법 = 부트스트랩(데이터를 반복적으로 복원추출해서 여러 ipw 추정값 구함)

ATE 를 계산하고 ,, 부트스트랩 과정에 적용

부트스트랩 하기 전 리샘플링: 연산 속도를 높이기 위한 과정

부트스트랩 표본마다 한 번씩 실행하여 추정값의 배열을 생성 .. 최종적으로 백분위수 계산하여 95% 신뢰구간 얻는다

 

5.3.6 안정된 성향점수 가중치

실험군 및 대조군에 1/P(T = 1|X)만큼의 가중치 주면 원래 표본 크기와 같지만 모든 대상이 처치 받은

처럼 행동하는 유사 모집단( =가중치의 합이 원래 표본 크기와 거의 같음) 을 만들 수 있음

 

즉, 성향점수 가중치를 사용하여, 공통원인 보정 --> 실험군과 대조군을 서로 비슷하게 만들자

교란 편향을 이해하고, 보정하느 방식에서 성향점수 가중치를 사용

 

IPW=  중요도 샘플링의 응용

중요도 샘플링: 원본 분포 q(x) 데이터가 있지만 목표 분포 p(x)에서 샘플링하고 싶을 q(x) 데이터를p(x)/q(x) 재조정하는 방식

- variance를 줄이기 위한 방법

- 효율적으로 기댓값을 추정하기 위해 고안된 방법 (타깃 분포 기댓값 유추하는 방법)

 

이를 IPW에 적용하면

시험군에 1/P(T = 1IX) 가중치를 주게 된다

=>  즉, P(T = 1IX) 분포에서 나온 데이터를 사용하고 데이터를 사용해 P(T = 1) = 1 재구성

--> 재조정된 표본이 마치 원래 표본에서 모든 대상이 처치 받은 것처럼 보임

 

(실험군과 대조군의 가중치 합이 원래 표본크기에 얼마나 가까운지 확인... 어쨌든 기댓값 유추하는 거니까)

--> 가중치가 작다면 ㄱㅊ 그런데 처치확률이 매우 낮으면 P(T|X)값이 너무 작아지고 문제임

--> 이럴 때에는 주변확률인 P(T=t)를 사용, 가중치를 안정화

작은 분모와 분자가 비율로 균형을 이룸 --> 확률이 낮은 처치에 큰 가중치가 적용되지 않음 --> 안정된 가중치

--> 안정된 가중치: 실험군과 대조군의 유효 크기(가중치의 ) 각각 모집단의 유효 크기와 일치하는 유사 모집단을 재구성

--> 즉, 원래 성향점수의 균형을 이루려는 속성을 동일하게 유지

 

5.3.7 유사 모집단

P(T|X) 관점에서 편향이란?

처치가 10% 확률로 무작위 배정되었다 --> 처치는 X 독립적이며 P(T|X) = P(T) = 10% 임

- 처치가 X가 독립이다 --> X에서 오는 교란 편향이 없다 --> 보정할 필요가 없다

- 편향이 있다 --> 일부 실험 대상은 처치받을 확률이 높다

예. 참여도가 높은 팀의 열정적인 관리자(편향이 있다..!)가 그렇지 않은 관리자보다 교육받을 가능성인 e(T)(처치받을 확률이 높다..!) 높을 있습니다 

교육받은 사람들의 e(x) 가 더 높을 것

e 햇 부분 이해 잘 안됨 ㅜㅜ

실험군과 대조군을 비슷하게 만든다는 건가ㅡ,,>?

 

보정을 하면 --> 성향점수 분포와 가중 성향점수 분포가 겹쳐진다.

==> 가중치가 적용된 데이터에서 실험군과 대조군이 처치받을 확률 = 처치받지 않을 확률 

==> 무작위 분포 !!

 

5.3.8 선택편향

IPW를 활용하여 선택 문제(주어진 데이터 집합에서 특정 조건에 부합하는 최적 또는 가장 적절한 원소를 선택하는 문제)를 보정하자 

 

예. 앱에 대한 고객 만족도를 알아보자(1-5 척도)

응답하지 않은 고객들 때문에 편향이 생김 (선택하지 않은것 때문에 편향)

--> 고객의 공변량이 주어지면 응답률을 추정하고 가중치를 부여하여 보정한다

 

5.3.9 편향-분산 트레이드 오프

T 예측하는 공변량 있다면 변수는 e(x) 대한 정확한 모델을 제공

but... 해당 변수가 y 원인이 아니라면 이는 교란 요인이 아니며 IPW 추정값의 분산만 높임

 

처치가 무작위 배정된다 = e햇의 예측력은 0이 되어야 한다.

--> 예. e햇이 높은 관리자가 낮은 관리자보다 교육에 참여할 가능성이 높은 것이 아니다. (예측력 은 0....)

 

편향-분산 트레이드오프: 성향 점수 모델이 더 정확할수록 편향이 작아짐.

--> e(x)가 매우 정확한 모델은 매우 부정확한 효과 추정값을 생성 

--> 편향을 통제하긴 해야하지만.. 너무 과도하면 분산 문제 발생 

--> 두 가지 인과추론 과정인 조건부 독립(비교란성) 과 양수성 관점에서 바라볼 수 있다. 

 

5.3.10 성향점수의 양수성 가정

예. 더 많은 변수를 추가하여 ex 대한 모델을 정교하게 만들기

 --> 조건부 독립성 가정 만족 (아마 점점 무작위에 가까워지므로 ...?)

--> 양수성 가정 타당성 떨어짐.. (처치의 수가 많아지면 특정 교란변수의 조합에서 어떤 처치를 받을 확률이 0이 될 수 있다_논문 참조)

(대조군에서 멀리 떨어진 낮은 e햇 역에 처치가 집중되기 때문)

 

** (3.5 참조)양수성 가정: 처치의 조건부 확률은 반드시 양수이고 1 미만이어야 한다. ()

- 교란변수가 주어졌을 때 처치를 배정받을 확률이 0과 1 사이

-->  양수성 가정을 위배해도 식별이 가능하지만, 위험한 외삽을 해야 한다.

 

IPW 재구성: 재조정할 있는 표본이 있을 때만 가능

성향점수가 낮은(= 대조군이 확률이 높은 영역에 처치 받은 표본이 없다 

==> 양수성가정 위배 (아마 확률이 0이므로..?)

-->  해당 영역에서 Y 재구성하는 재조정은 불가능

 

 교란 변수 X가 클수록 Y는 작아지지만 처치받을 가능성은 높아짐

--> 실험군과 대조군 간의 평균 결과를 단순 비교하면 하향 편향임

X는 t와 y의 관계를 교란

- x 값이 높음--> 성향점수가 1에 가까워 처치 받을 가능성이 매우 높음

- x 값이 낮음 --> 성향점수가 0에 가까워 처 받을 능성이 매우 낮음

가중치가 크면 IPW 추정량의 분산을 증가시킨다

큰 분산(가중치 크고) + 양수성 가정 위배 --> IPW 추정량이 데이터에서 ATE를 1로 찾지 못한다. (이것도 잘 이해 안됨 ㅜ)

 

5.4 디자인 vs. 모델 기반 식별

정리) 

편향을 제거하는 가장 중요한 2가지 방법 .. 이 중 뭘 언제 사용할까

1) 성향점수 매칭

2) 역확률 가중치

 

1) 모델 기반 식별: 처 추가 공변량을 조건부로 설정하고 잠재적 결과 대한 모델 형태로 가정

(목표: 추정에 필요한 누락된 잠재적 결과를 대체)

2) 디자인 기반 식별: 처치 배정 메커니즘에 대한 가정

 

예. 회귀분석: 모델(잠재적 결과 모델의 추정량 관점) 기반, 디자인(직교화관점) 기반 둘다 맞음

 

5.5 이중 강건 추정

이중강건: 모델 기반과 디자인 기반 식별을 모두 결합하여 적어도 하나가 정확하기를 기대

- 모델 중 하나만 맞으면 된다는 장점

- 결과는 IPW 및 회귀추정량과 비슷

 

이중강건성 2가지 경우

5.5.1 처치모델링이 쉬운 경우

처치 배정P(T|X)을 모델링하기 매우 쉽지만, 결과 모델 E[Y|X]은 조금 복잡한 경우

예. 베르누이 분포를 따를 때

- 결과 Y가 복잡하므로 회귀모델은 문제를 겪을 수 있다.

--> 현실에서는 데이터 생성 과정을 정확히 모르므로 회귀분석은 잘 작동하지 않을 가능성이 높다. 

-E[Y|X] 잘못되어도 P(T|X)모델링하기가 쉬울 이중강건 추정값이 더 정밀

 

5.5.2 결과모델링이 쉬운 경우

처치 배정P(T|X)(비선형)을 모델링하기 복잡, 결과 모델 E[Y|X](선형)은 쉬울 때

--> 여기서 ATE는 -1

 

 P(T|X) E[Yt|X] 모델 하나만 하나만 정확하게 모델링하면 된다!!

5.6 연속형 처치에서의 일반화 성향 점수

연속형 처치는 복잡하므로

1) 이산화

2) 일반화 성향점수(GPS)를 사용한다.

 

예. 은행은 대출금리가 고객이 대출금을 상환하는 기간에 어떤 영향(음수)을 미치는지 알고 싶다. 

(금리가 높을수록 빨리 상환하려 할 것)

가우스(가우스 분포 = 정규분포)잡음 추가: 정책이 비결정적이고 양수성 가정을 위배하지 않도록 함

조건부 정규분포의 매개변수인 평균과 표준편차를 추정해야함

--> OLS 를 사용하여 처치변수를 적합시킨다 (추정값 얻기)

--> 조건부 밀도의 추정값을 얻을 수 있다.

 

회귀분석에서 일반화 성향점수의 역수를 가중치로 사용하면 편향 보정 가능 --> 음의 영향을 알 수 있다

 

예시 논문) 이러한 성향점수매칭법(PSM)은 이진처치 분석에 주로 사용된다. 우리나라의 기존 선행연구들은 직업훈련에 참여한 경우를 1, 참여하지 않은 경우를 0으로 하여 직업훈련의 효과를 분석하였다. 하지만 본 연구에서는 상이한 직업훈련별 이질적인
훈련효과를 추정하고자 하므로, 처치(직업훈련방식)가 여러 개인 다중처치로 설정된다. 따라서 기존의 선행연구와 같은 이진처치에 대한 성향점수매칭법(PSM)으로는 이러한 이질적인 훈련효과를 추정할 수 없다. 본 연구에서는 다중처치로 인해 발생하는 이질적인 처치효과를 추정하기 위해 일반화된 성향점수매칭법(Generalized propensity score matching methods, GPS)을 이용한다.

6장. 이질적 처치효과

이질적 처치효과 ) '실험 대상마다 처치효과는 일정하지 않다'

교차검증과 모델 선택 !!

 

6.1  ATE에서 CATE

ATE(평균 처치효과)

- 인과효과 추정을 할 때 필요

- 프로그램 평가로 불리는 의사결정 문제, 전체 모집단에 처치 시행 여부를 결정 유용

 

'누구에게 처치해야 하는가'

예, 어떤 고객에게 할인 쿠폰을 주면 유익하지만, 다른 고객에게는 그렇지 않을 있다

--> 개인화 - 조건부 평균처치표과 (CATE)

조건부 평균처치표과 (CATE): 실험 대상이 공변량 X 정의된 특성에 따라 처치효과가 다를 있음

 

6.2 예측이 답이 아닌 이유

처치와 결과 그래프, 고객은 점

개인화 부분 = 고객 세분화 문제

고객의 처치에 대한 반응 = 조건부 처치효과로 구하기

처치에 잘 반응하는 고객(높은 처치효과)/ 잘 반응하지 않는 고객(낮은 처치효과)

y 기준 비교

결과 Y 달리 기울기또는 변화율 기본적으로 개별 대상 수준에서 관측할 없음...

처치에 따른 결과의 변화가 필요

6.3 회귀분석으로 CATE 구하기

예. 레스토랑 체인 회사가 고객에게 할인을 제공해야 하는 적절한 시기를 물색 중이다.(가격차별)

(요일 - 레스토랑 조합) : 요일에 '처치(할인 제공)'를 하게 됨(시점간 가격 차별)

-->  날짜와 공변량에 대한 할인의 매출 민감도를 나타내는 모델

--> 관측할 수 없는 기울기를 예측할 수 있다.

공변량: 날짜별 특성 (월, 요일, 휴일여부), 경쟁업체 평균 가격

미분하면 각 계수가 (베타) 기울기로 추출됨

모델을 활용해 가지 예측

1) 원본 데이터를 그대로 사용한 예측

2) 원본 데이터를 사용하지만 처치를 단위씩 증가시킨 예측

두 예측값의 차이가 CATE 값이 됨(기울기)

 

6.4 CATE 평가하기

그룹 수준의 지표를 활용하자 ~ (엄청 중요한 내용은 아닌듯?)

 

6.5 모델 분위수에 따른 효과

실험 대상을 민감도가 높은 순서부터 낮은 순서로 나열 = 개인화를 하는 용이

CATE 예측값을 가지고 있다 --> 값에 따라 대상을 순서대로 나열하면 좋겠다... 

개별 대상 수준에서는 안되고, 구분된 그룹대로 평가는 가능

- 단순 회귀분석으로 회귀 계수를 추정할 수 있다. 

모델의 예측값에 데이터를 분위수별로 세분화하고 분위수에서 효과를 추정

 

번째 분위수에서의 추정 효과가 번째 분위수의 추정 효과보다 낮음

번째 분위수의 추정 효과는 번째 분위수보다 낮음...(점점 높아져)

CATE 모델이 실제 CATE 순서를 매우 반영 및 예측

1) 난수모델: 각 그룹의 추정된 효과가 거의 비슷 - 개인화 X.. 단지 ATE 만 했다

2) 머신러닝 모델: 판매예측이 매우 높거나 매우 낮을 때 할인 제공 --> 개인화 함

3) CATE 모델 즉 회귀모델 : 분위수별 효과 그래프의 계단 모양 --> 모델은 효과와 낮은 효과를 구분

계단이 가파를수록 나은 모델임

 

6.6 누적 효과 곡선 

그룹별로 효과를 추정하지 않고 그룹을 다른 그룹 위에 누적하는 형태

실제 CATE 순서를 반영한다면 해당 곡선은 매우 높게 시작해서 점차 ATE 수렴

장점: 단일 숫자로 요약 가능! 

단점: 곡선의 시작 부분이 가장 큰 면적.. 표본의 크기가 작은 부분이므로 불확실성이 크다  --> 누적 이득곡선으로 해결

 

6.7 누적 이득 곡선 

데이터 포인트에 누적 표본 N(cum) / N 곱하기

선을 ATE 정규화할 있도록 선택할 있으므로 반복마다 효과에서 정규 인수를 빼는 과정이 추가