티스토리 뷰



일반적인 회귀모형을 생각해보자.

아래 그림은 설명변수 $X$(covariate)와 성과변수 $Y$와의 관계를 산포도로 그린 것이다.

. clear

. set more off

. use rd_1, clear

. scatter y_original x ///
> , xtitle(Covariate) ytitle(Outcome) ms(O) mcolor(green%30) ///
> title("Covariate and outcomes")


위 산포도에 따르면, $X$가 증가하면서 $Y$도 증가하는 경향이 있는 것으로 보인다.

이러한 상관관계를 선형모형으로 추정한 것이 아래 그림의의 붉은색 실선이다.

파란색 점선은 비모수적으로 추정한 선형식이다.

. tw (scatter y_original x , ms(O) mcolor(green%30)) ///
> (lfit y_original x, lwidth(thick) lcolor(red%70)) ///
> (lpoly y_original x, lwidth(thick) lpattern(dash) lcolor(blue%70)) ///
> , xtitle(Covariate) ytitle(Outcome) ///
> legend( order(1 "Observed" 2 "Linear" 3 "Nonparametric") ring(0) pos(5) col(1) ) 

$X$와 $Y$가 위와 같은 관계를 가지고 있는 상황에서 정책이 시행되었다고 하자. 

정책 시행 여부 $T$는 $X$와 독립적으로 결정되었다고 해보자. 즉, 정책 대상이 임의할당을 통해 결정되었다고 해보자. 

그러면 동일한 $X$에 대해서 일부는 정책을 받은 그룹이 있고 일부는 정책을 받지 않은 그룹이 존재한다.


$$0< \Pr(T=1|X)<1 $$ 


이 만족된다.

아래 그림에 따르면 처리군과 통제군 사이에 $X$와 $Y$ 사이의 관계는 유사해 보이고, 높낮이 즉 절편만큼만 차이가 난다.

. tw (scatter y_random x if T_random == 1, ms(O) mc(red%30)) ///
> (scatter y_random x if T_random == 0, ms(O) mc(blue%30)) ///
> , xtitle(Covariate) ytitle(Outcome)  ///
> legend( order(1 "Treatment" 2 "Control" ) ring(0) pos(5) col(1) ) 

이럴 때 정책의 효과는 아래와 같은 회귀모형을 통해서 쉽게 추정할 수 있다.

$$ y_{i} = a + b x_{i} + \delta T_{i} + e_{i} $$


위 회귀모형은 reg 을 이용하여 쉽게 추정할 수 있다.

. reg y_random x T_random

      Source |       SS           df       MS      Number of obs   =     1,001
-------------+----------------------------------   F(2, 998)       =   2617.22
       Model |    500.7397         2   250.36985   Prob > F        =    0.0000
    Residual |  95.4710268       998  .095662352   R-squared       =    0.8399
-------------+----------------------------------   Adj R-squared   =    0.8395
       Total |  596.210727     1,000  .596210727   Root MSE        =    .30929

------------------------------------------------------------------------------
    y_random |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           x |   1.705975   .0345208    49.42   0.000     1.638233    1.773716
    T_random |   1.007826    .019568    51.50   0.000     .9694268    1.046225
       _cons |   .3094543   .0219216    14.12   0.000     .2664365     .352472
------------------------------------------------------------------------------

하지만 정책 수혜 여부가 위와 같이 임의로 주어지는 경우가 아니라면 위의 OLS를 이용한 정책평가는 가능하지 않다. 

첫째, 선택에 의해서 정책수혜 여부가 결정되는 경우 선택편의가 있기 때문이다. 하지만 이런 경우에는 적절한 가정 하에서 PSME 등을 이용해서 정책효과를 추정할 수 있다. 

두 번째 문제는 공통 서포트의 가정이 만족되지 않는 경우이다. 특정 $X$를 가진 사람은 모두 정책을 받은 경우가 이에 해당한다. 그런 경우 통제군을 적절히 구성할 수 없기 때문에 매칭에 의한 추정 역시 불가능해진다. 실제 정책의 경우 공통서포트의 가정을 만족시킬 수 없는 경우가 많다. 특별히 사회정책, 경제정책의 경우 특히나 그렇다.


예컨대, 국민기초생활보장제도와 관련된 많은 복지정책들이 소득인정액을 기준으로 정책 수혜 여부가 결정된다. 

장학금은 특정 학점을 기준으로 결정된다. 

저학력 학교와 관련된 정책들은 국가수준의 학업성취도평가를 기준으로 결정된다. 

중소기업에 대한 정책도 매출액, 자본금, 업력 등에 대해 사전에 결정된 기준에 의해서 수혜여부가 결정된다.


예를 들어 정책수혜 여부가 아래식과 같이 결정된다고 해보자.


$$ T_i = 1 \left \{ X_{i} \geq 0.5 \right \} $$


 

즉, $X$가 0.5 이상이면 정책을 받게 되고, 0.5 미만이면 정책을 못 받게 된다. 

이를 그림으로 표현한 것이 아래 그림과 같이 제시할 수 있다. 


먼저 첫 번째 그림은 임의할당인 경우의 정책할당 관계를 보여주고 있다.

$X$와 무관하게 정책이 할당되었기 때문에 모든 $X$에 대해서 정책을 받은 사람도 있고, 정책을 받지 않은 사람도 있다. 임의할당의 경우 공통 서포트의 가정은 만족된다고 볼 수 있다.

. scatter T_random x, ms(O) mc(blue%10) ///
> xla(0(0.2)1 ) yla(0 1, ang(h)) ytitle(policy assignment)

하지만 $X$의 특정 값을 기준으로 정책수혜 여부가 결정되면 문제가 발생한다. 예컨대 $X=0.6$ 인 경우, 모두가 정책수혜자가 되기 때문에 이 사람에 대해서 매칭할 수 있는 사람이 통제군에 존재하지 않는다.

. scatter T x, ms(O) mc(green%10) ///
> xline(0.5, lcolor(red%70) lp(dash))  ///
> xla(0(0.2)1 0.5) yla(0 1, ang(h)) ytitle(policy assignment)

만약 임의할당이 아니라 위의 식에 따라서 정책수혜 여부가 결정이 되었다면 우리가 관측가능한 산포도는 아래와 같을 것이다. 0.5를 기준으로 오른쪽에는 정책수혜 그룹의 산포도가, 왼쪽에는 통제 그룹의 산포도가 그려질 것이다. 이 그림은 마치 0.5에서 지진이 생겨 단층이 생긴 것처럼 보인다. 회귀선이 중간이 끊긴 불연속이 발생하였다. 그런 의미에서 이를 회귀불연속(regression discontinuity)이라고 한다.




공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함