C. Huber의 Stata blog의 애니메이션 예제 파일 중 2번째 프로젝트 lowes 추정 과정을 보여줄 수 있는 애니메이션입니다. sysuse auto, clearlocal width = 1500forvalues UB = 3500(500)15000 { local LB = `UB' - `width' twoway (scatter mpg price , color(%30) mlwidth(none)) /// (lowess mpg price if price `LB' & price
C. Huber 가 Stata 블로그에 만들어 놓은 애니메이션 파일을 조금 수정하여 기각역과 파워를 살펴볼 수 있는 파일을 만들었다.local GraphCounter = 100local mu_null = 0local sd = 1local z_crit = round(-1*invnormal(0.05), 0.01)local z_crit_label = `z_crit' + 0.75local color1 "pink%70"local color2 "navy%70" forvalues mu_alt = 1(0.03)3 { twoway /// function y=normalden(x,`mu_null',`sd'), /// range(-3 `z_crit') color(`color1') dropline(0) || /// funct..
신뢰구간에 대한 이해 나만 그랬는지 모르겠지만 통계학을 공부하면서 처음 맞이하는 당황스러움 중 하나는 신뢰구간에 대한 이해이다. 경제학에서 리카도의 비교우위론이 전혀 이해가 안되었던 것처럼 신뢰구간 역시도 아직도 직관적으로 이해가 가질 않는다. 신뢰구간에 대한 이해가 어려운 이유는 우리가 상식적으로 생각하는 신뢰구간에 대한 직관적인 이해와 통계학적 정의 사이에 불일치가 발생하기 때문이다. 예컨대, 대통령 선거 전 여론조사에서 문재인 후보에 대한 지지율을 조사했다고 해보자. 조사개요에 따르면 조사된 문재인 후보의 지지율이 40%이고 95% 신뢰수준에 표본오차가 플러스-마이너스 2.5%라고 하자. 그러면 신뢰구간은 [37.5%, 42.5%]이 된다. 이 신뢰구간의 의미는 무엇인가? 상식적으로 생각해보면 사람..
Machine Learning in Stata (Cameron의 노트를 정리한 것입니다)machine learning은 간단히 보면 $x$ 가 주어졌을 때 $y$ 를 예측하는 알고리듬으로 볼 수 있다.특별히, 주어진 자료에 기초하여 예측하는 알고리듬으로 정리할 수 있다.ML은 예측하는 모형인 것인지 인과적 효과를 검정하는 모형은 아니다.특별히 supervised learning은 기본적으로 regression 으로 이해할 수 있다.예측을 잘 하는 모형을 선택하는 알고리듬이 필요하다.여러가지 방법이 있을 수 있는데, 많이 사용되는 방법은 크게 두 가지 정도로 나눠볼 수 있다. penalty measures: Mallows, AIC, BIC 등cross validation CV의 경우 데이터를 trainin..
우리나라의 recession 경기침체는 여러 방법으로 정의할 수 있는데 교과서에서는 두 분기 이상 GDP가 하락하고 있는 기간을 경기침체라고 정의한다먼저 우리나라의 분기별 실질성장률 자료를 불러들이자(한국은행 혹은 kosis.kr 에서 다운 받을 수 있다.) quaretly() 함수를 이용하여 분기별 정보를 담고 있는 date 변수를 생성하자. 그리고 포맷을 바꾸고, 타임시리즈 변수를 선언해주자. . import excel Real_gdp.xlsx, firstrow clear . gen date = quarterly(year, "YQ") . format date %tq > . tsset date, quarterly time variable: date, 1970q1 to 2018q2 delta: 1 qua..
pcspike pcskpike를 이용하면 $(x_1 , y_1)$ 에서 $(x_2, y_2)$를 잇는 선을 쉽게 그릴 수 있다.다음과 같이 자료를 읽어들이자. . sysuse nlswide1, clear (National Longitudinal Survey. Young Women 14-26 years of age in 1968) 아래와 같이 쉽게 그림을 그릴 수 있다. 68년 경력 대비 임금에서 88년 경력 대비 임금이 어떻게 변했는지를 보여주고 있다. . twoway (pcspike wage68 ttl_exp68 wage88 ttl_exp88), scheme(538) 위 그림에다가 다음과 같이 label을 달아주면 조금 더 보기 좋다. . twoway (pcspike wage68 ttl_exp68 wa..
그래픽 scheme 파일 만들기 그래픽 옵션을 매번 조정하는 것은 상당히 번거로운 일이다. 그래서 Stata에서는 scheme을 이용해서 옵션을 저장해 놓고 필요할 때 사용할 수 있다. ssc install grstyle, replace grstyle을 이용하여 다음과 같이 scheme을 비교적 쉽게 작성할 수 있다. . grstyle init rstyle2, replace . grstyle set imesh, horizontal minor . grstyle set legend 4, nobox . grstyle set color hue, n(5) . grstyle linewidth pmark none . grstyle color ci_area gs12%50 . grstyle color ci_arealin..
3차원을 2차원으로 zmap을 이용하면 3차원 자료를 2차원으로 비교적 쉽게 만들 수 있다.필요한 경우 다음과 같이 zmap을 설치하자. ssc install zmap, replace 다음과 같이 자료를 읽어들이자. . webuse nlswork, clear (National Longitudinal Survey. Young Women 14-26 years of age in 1968) 3차원 자료를 만들기 위해서 연령, 학력 마다 로그-임금의 평균을 계산하자. . egen mean = mean(ln_wage), by(age grade) . label var mean "mean of ln(wage)" . egen tag = tag(age grade) . zmap mean grade age if tag, //..