티스토리 뷰

모형의 추정

RDD 모형 추정을 위해, 잠재 성과에 대한 다음과 같은 모형을 생각해볼 수 있다.

$$ E[Y_{0i} | X_{i} ] = \alpha + \beta X_{i} $$ $$ Y_{1i} = Y_{0i} + \rho $$

위 모형에 따르면 정책효과는 $\rho$가 된다.

관측되는 변수는 다음과 같이 정의할 수 있다.

$$ Y_{i} = T_{i} Y_{1i} + (1-T_{i}) Y_{0i} = Y_{0i} + T_{i} ( Y_{1i} - Y_{0i} ) $$

위 식에 $ Y_{0i}$를 대입하면, 아래 회귀식을 도출할 수 있다.

$$ Y_i = \alpha + \beta X_i + \rho T_i + \eta_i $$

위의 방정식은 선형관계를 가정했을 경우이고, 비선형인 경우에는 일반적으로 다음과 같이 쓸 수 있다.

$$ Y_i = f(X_{i}) + \rho T_{i} + \eta_{i} $$

남은 문제는 임의의 함수 $f(X_i )$를 어떻게 근사할 수 있냐는 것이다.

가장 간편한 근사는 다항식을 이용하여 $f(X_i )$를 근사하는 것이다. 즉, 아래 식과 같이 모형을 설정할 수 있다.

$$ Y_{i}=\alpha + \rho T_{i} + \beta_1 x_{i} +\beta_2 x_{i}^2+ \cdots +\beta_p x_{i}^p + \eta_{i} $$

위 모형은 다음과 같이 추정할 수 있다. 먼저 강제변수 X의 제곱, 세제곱, 네제곱 항을 만들자. 여기에서는 foreach 루프를 이용하였다.

. foreach i of num 1/4 {
  2.         gen x`i' = x^`i'
  3. }

이렇게 만들어진 다항식과 정책더미 T와 다항식을 이용하여 추정하였다.

. reg y T x1-x4

      Source |       SS           df       MS      Number of obs   =     1,000
-------------+----------------------------------   F(5, 994)       =   3383.17
       Model |  1016.11034         5  203.222067   Prob > F        =    0.0000
    Residual |  59.7081548       994  .060068566   R-squared       =    0.9445
-------------+----------------------------------   Adj R-squared   =    0.9442
       Total |  1075.81849       999  1.07689539   Root MSE        =    .24509

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           T |   1.616242   .0398994    40.51   0.000     1.537945    1.694538
          x1 |   5.330361   .5934231     8.98   0.000     4.165855    6.494867
          x2 |  -17.54016   2.347084    -7.47   0.000    -22.14597   -12.93436
          x3 |   26.15215   3.385596     7.72   0.000     19.50841    32.79589
          x4 |  -13.18735   1.648627    -8.00   0.000    -16.42253   -9.952157
       _cons |   .1398714   .0422925     3.31   0.001     .0568785    .2228644
------------------------------------------------------------------------------

정책효과인 T의 계수는 1.62이고 t-값은 40.5로 통계적으로 유의하였다. 하지만 진짜 정책효과가 1인 점을 고려해보았을 때, RDD를 이용하여 추정한 정책효과는 실제와는 거리가 있어 보인다.

아래 그림을 보면 경계선 좌측과 우측이 동일한 함수 형태를 가지고 있어 함수를 적합시키는데 제약이 큼을 확인할 수 있다.

. tw (scatter y x, ms(O) mcolor(green%30)) (line y_hat1 x, lcolor(red%70) sort),  
> ///
> scheme(rstyle)  

모수적 형태로 회귀식을 추정할 때 여러 가지 제약이 있음은 분명하다.

그럼에도 불구하고 연구자들은 좀 더 유연한 모수적 모형을 추정한다. 이를 위해 보통 2가지 작업을 한다.

(1) 센터링 (2) 정책변수와 상호작용

이를 위해 forcing 이라는 새로운 변수를 생성하고, 생성된 forcing 의 다항식과 $T$ 와 상호작용항을 생성하였다.

. gen forcing = x - 0.5

. foreach i of num 1/4 {
  2.         gen forcing`i' = forcing^`i'
  3. }

. foreach i of num 1/4 {
  2.         gen TXforcing`i' = T*forcing`i'
  3. }

이러한 변수를 이용해서 회귀분석하였다. 추정결과 정책효과는 0.9로서 실제 정책효과 1과 다소 유치해졌다.

. regress y T forcing1-forcing4 TXforcing1-TXforcing4

      Source |       SS           df       MS      Number of obs   =     1,000
-------------+----------------------------------   F(9, 990)       =   2870.81
       Model |   1036.1178         9    115.1242   Prob > F        =    0.0000
    Residual |  39.7006938       990  .040101711   R-squared       =    0.9631
-------------+----------------------------------   Adj R-squared   =    0.9628
       Total |  1075.81849       999  1.07689539   Root MSE        =    .20025

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           T |   .9014693   .0637886    14.13   0.000      .776293    1.026646
    forcing1 |   9.736781   1.309254     7.44   0.000     7.167548    12.30601
    forcing2 |   51.75605   10.63016     4.87   0.000     30.89582    72.61628
    forcing3 |   88.60553    31.9915     2.77   0.006     25.82659    151.3845
    forcing4 |   26.42901    31.8278     0.83   0.407     -36.0287    88.88671
  TXforcing1 |  -3.247495   1.769002    -1.84   0.067     -6.71892    .2239287
  TXforcing2 |  -54.97686    14.4432    -3.81   0.000    -83.31967   -26.63405
  TXforcing3 |  -165.3031   43.59201    -3.79   0.000    -250.8465   -79.75976
  TXforcing4 |    101.179   43.39776     2.33   0.020      16.0168    186.3411
       _cons |   1.224212   .0477292    25.65   0.000      1.13055    1.317874
------------------------------------------------------------------------------

회귀분석 결과를 이용하여 예측치 y_hat3 를 생성한 이후에, 이를 다시 아래와 같이 그림을 그렸다.

. predict y_hat3
(option xb assumed; fitted values)

. tw (scatter y forcing, ms(O) mcolor(green%30)) (line y_hat3 forcing1, lcolor(red
> %30) lw(thick) sort) , ///
>  xla(-0.5(0.1)0.5, grid) xtitle(forcing variable)  yla(,grid) scheme(rstyle)


공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함