티스토리 뷰
(version 0.3)
통계학, 계량경제학, 생물통계학 등에서 수 많은 추정방법이 제안되었음에도 불구하고, 실증 연구자들이 가장 많이 사용하는 추정방법은 회귀분석(regression)이다.
구조모형 같은 다른 추정방법을 사용하는 경우에도 회귀분석을 먼저 해 본 이후에 구조모형을 추정하면 크게 망치는 법이 없다. 사전에 회귀분석을 하지 않고 구조모형에 그대로 달려들었다가 사단다는 경우 많이 봤다. 회귀분석을 했는데 발견하기 어려웠던 결과가 복잡한 추정방법을 사용해서 나오는 경우는 거의 없다. 1
그런 의미에서 회귀분석은 모든 실증 연구의 시작이라고 볼 수 있다.
이러한 회귀분석이라는 단어는 누가 언제 어떻게 사용하기 시작했을까?
회귀(regression)라는 단어를 처음 사용한 사람은 Galton(1885)이다. 회귀분석의 아이디어는 19세기 초의 가우스까지 거슬러 올라갈 수 있지만, 회귀라는 단어를 본격으로 사용한 사람은 갤톤으로 볼 수 있다. 2갤톤은 'regression to mediocrity'라는 표현에서 회귀라는 용어를 처음 사용하였다.
regression은 '돌아간다'는 뜻이고, mediocrity는 '평범'으로 해석할 수 있으니, regression to the mediocrity는 '평범으로의 돌아감' 정도로 해석할 수 있고, 좀 더 멋있게는 '일상으로의 회귀' 정도로도 해석이 가능하다(이런 제목의 글이 많더라. 검색해보라).
갤톤은 다윈의 진화론에 문제가 있다고 생각했다. 다윈의 진화론에 따르면, 대를 거듭할 수록 종의 다양성이 커지게 되는데, 그렇게 되면 이른바 최적자의 생존이라는 명제가 성립하기 어렵다는 모순에 대해서 고민하기 시작하였다. 뒤에 먼델이 보이기도 하였지만, 갤톤이 관찰하기에 종의 다양성은 최소한 단기에서는 대를 거듭해도 안정적이었다. 하지만, 동시에 이질성은 대를 거듭할수록 커지는 힘도 있었다. 이 두 모순되어 보이는 명제를 양립 가능하게 만든 것이 갤톤이고, 이를 위하여 사용된 것이 이른바 회귀라는 개념이고, 요즘 말로 mean reversion 이라고 불리는 성질이다.
갤톤이 분석한 주된 내용은 키(stature)와 관련된 것이다. 좀 더 구체적으로는 갤톤은 아래와 같은 질문을 던지고 있다.
아빠(정확히는 부모)의 키가 크면, 자식의 키도 큰 편인가?
라는 질문과
키가 큰 자녀의 부모도 역시 키가 큰가?
라는 질문이다.
갤톤은 이에 대한 답을 찾기 위해 퀸컹스(Quincunx)라는 도구를 사용하였다.
퀸컹스는 아래 그림의 7처럼 생긴 도구이다. Fig 7. 처럼 맨 위 중간에서 구슬을 아래로 굴리면 가장 아래로 갔을 때 종모양의 정규분포를 따르는 분포가 된다. 이런 현상이 발생하는 이유는, 베르누이 시행을 합하면 이항분포가 되고, 시행 회수가 많아지면 이항분포가 정규분포를 따르게 되기 때문이다.
Fig 8. 은 위의 질문에 답을 하기 위해 원래 퀸컹스에 추가적인 장치를 설치한 것을 보여주고 있다. A-A로 되어 있는 중간 쉼터는 아빠 키의 분포라고 볼 수 있다. 그리고 맨 아래 있는 칸 B-B는 자녀의 키의 분포를 나타낸다.
맨위에서 구슬을 굴렸다면 유전(고정효과)과 상관없이 A-A칸에서 아버지의 키는 대충 정규분포를 따를 것이다. 순전히 통계적인 현상이다.
앞의 문제 중 첫 번째 문제, "키가 큰 아빠의 자녀는 키가 클 것인가?"는 Fig.8의 화살표 (1)로 대표할 수 있다. 즉, 키가 큰 아빠의 경우 자녀대에 이르게 되면 다수는 바로 아래 B-B칸으로 내려갈 것이다. 이건 어찌 보면 당연해 보인다. 즉, 키 큰 아빠의 자녀들은 평균적으로 키가 큰 경향이 있다.
두 번째 질문인, "키 큰 자녀의 아빠는 키가 큰가?"는 조금 더 복잡하다. 답부터 말해보면, 그건 그렇지 않을 수 있다. B-B (2)번 칸에 있는 자녀들은 키가 큰 편이다. 하지만 그들의 부모는 바로 위 A-A에 속하는 키 큰 아빠일 수도 있다. 하지만 다수는 키가 중간 정도인 아빠를 가졌을 가능성이 높다. 직관적으로 보면, 아빠 세대에 키가 중간이 사람들이 많기 때문에 B-B (2)번 칸에 있는 키가 큰 자녀들의 아빠들도 키가 중간일 가능성이 높은 것이다.
이러한 관계를 관측자료로 구체화 시킨 것이 바로 아래의 Table 1이다.
갤톤이 그린 아래 표는 약간 복잡해보인다.
요즘 우리가 작성하는 방식으로 표를 만든 것이 아니기 때문이다.
직관적으로 와닿지는 않지만 잘 뜯어보면 얼추 해석할만하다.
Table 1의 맨 왼쪽 열은 부모(정확히는 엄마-아빠의 평균키(mid-parents))의 키가 표시되어 있다. 부모의 키를 11개의 그룹으로 나누고, 가장 큰 그룹은 above, 그 다음 그룹은 72.5, 그 다음은 71.5 등으로 구분하였다. 각 그룹에는 5명, 6명, 11명,. 등의 부모가 포함된다.
표의 주요 내용은 각 부모 그룹에 속하는 자녀들의 키의 분포이다. 갤톤은 자녀의 키를 14개의 그룹으로 나누고, 몇 명의 자녀가 각 그룹에 속하는지를 표로 나타낸 것이다. 이른바 조건부 분포를 그린 것이다. 예컨대, 부모 72.5 인치 그룹의 자녀들은 68.2 그룹에 1명, 69.2그룹에 2명, ... 이렇게 속하는 것이다.
한 가지 재미있는 사실은, 부모의 키의 분포도 정규분포, 자녀의 키의 분포도 정규분포, 부모키에 대한 자녀의 조건부 분포도 얼추 정규분포를 따르게 된다는 것이다(이변수 정규분포의 출발점이 된다).
Table 1을 요즘 식으로 이해하기 위해서는 위/아래 좌/우를 바꿀 필요가 있다.
그러면 $X$-축에는 부모의 키, $Y$-축에는 자녀의 키를 표시하고, 산포도를 표시하되, 한 점에 여러점이 겹쳐 그려진 셈이니, 버블-차트로 겹쳐 된다.
아래 표를 보면, 부모의 키가 컸을 때, 자녀의 키 역시 커지는 경향이 있음은 비교적 쉽게 알 수 있다.
갤톤이 궁금해 했던 것은 이 직선의 기울기가 얼마나 되는지와 관련된 것이다. 이러한 관계는 요즘 식으로 회귀분석을 통해서 추정할 수 있다.
위 관계 회귀식으로 나타내면 다음과 같다.
$y_i = \alpha + \beta x_i + e_i$
$x_i$: 부모의 키
$y_i$: 자녀의 키
위 식을 간단히 바꾸면 아래와 같이 바꿀 수 있다.
$ (y_i -\bar{y}) = \beta (x_i - \bar{x}) + (e_i - \bar{e}) $
만약 $x_i$와 $y_i$의 표준편차가 1이라면
부모의 키가 평균에서 3(표준편차)만큼 클 때 자녀의 키가 평균에서 몇 (표준편차) 만큼 큰 지를 $\beta$가 측정하게 된다.
만약 부모의 큰 키가 그대로 자녀에게 이어진다면, 자녀 역시 자녀대의 평균키와 비교해서 3(표준편차)만큼 클 것이기 때문에 $\beta = 1$이 될 것이다.
하지만 갤톤이 추정한 부모의 키와 자녀의 키의 관계는 약 2/3(=0.67) 정도이다. 즉, 부모대에서는 3만큼 키가 더 크지만, 자녀대에서는 2만큼 키가 커서, 평균과의 격차가 줄어들게 된다. 만약에 몇 대를 더 거쳐내려간다면, 부모의 키가 크다고 해도 자녀의 자녀의 자녀의 키는 점점 평범한 키로 수렴해 갈 것이다.
이러한 관계를 Galton이 사용한 원자료를 이용해 표시한 회귀선은 아래 그림의 파란색으로 표시되어 있다.
한편 SD-line은 빨간색으로 표시되어 있다. 회귀선은 SD 선보다 좀 더 기울기가 작다. 이는 다음과 같은 관계 때문에 발생하게 된다.
$$ \hat{\beta} = \rho \times \frac{S_y}{S_x} $$
$$ -1 \leq \rho \leq 1$$
위와 같은 계수의 크기 때문에 부모 세대 내에서 비교적 키가 큰 부모일지라도 자녀 세대에는 2/3 정도 밖에는 키가 크지 못하게 되는 것이다. 그런 의미에서 '평범으로 회귀'가 발생하게 되는 것이다.
물론 Galton은 위와 같은 회귀선을 그리지 않았다. Galton 대신 아래와 같은 그림을 그려서 기울기를 산출하였다.
먼저, 부모의 키를 그룹으로 나누고, 각 그룹에 속하는 부모의 평균(중위)키와 자녀의 평균(중위)키를 아래와 같이 그렸다. 단, 키를 바로 그린 것은 아니고 각 평균으로부터의 편차를 구해서 그렸다.
그러면 부모의 평균으로부터의 편차 대비 자녀의 평균으로부터의 편차를 비교할 수 있게 된다. 갤톤은, 그 차이가 약 2/3정도 된다는 것을 계산한 것이다.