이번 학기 동안 우리 공장에 공원이 없어서 자료를 직접 수집하고 클리닝 하게 된다(요즘말로는 전처리). 예전 같으면 사이트 방문하면서 다운 받아서 정리를 시작하는데, 그것도 귀찮아져서 공공 사이트는 open API를 사용하게 된다. 기관마다 달라서 시간이 좀 걸리는데, 하는 김에 대충 정리해 놓으면 나중에 편할 것 같아서 정리해본다. 이번에는 한국은행 open API 에 대해서 설명해보자. 1. 한국은행 -> 통계 -> open API 에 가서 인증키를 신청하고 받자. 2. 통계코드와 항목코드를 확인하자. 오늘은 GDP가 업데이트 되었기 때문에 다음의 항목을 불러보자. a. 연간 GDP: 111Y002 b. 원화 명목 GDP: 10101 3. 통계 조회 조건 설정 탭을 살펴보면, 요청인자가 나와 있다. ..
원래 숙련된 조교가 있으면 조교를 시키면 되는데 현재 숙련된 연구조교가 졸업을 하고 취업한 관계로 좀 귀찮지만 후다닥 공기질 정보를 담고 있는 마스터 파일을 만드는 코드를 후다닥(효율화하고는 거리가 멀다) 짰다. 사실 오후 내내 다운 받고 짰다. 참고로 open API는 과거 3달치 자료만 접속이 가능해서 어차피 과거 자료를 하려면 노가다를 한 번은 해야한다. 1. airkorea 사이트를 뒤지면 연도별 확정자료가 나오는데, 그걸 다운 받는다. - 압축파일인데, 분기별 자료가 들어가 있다. 2. 약간 귀찮은 단계가 있는데, 엑셀에서 변수명 중 한글이 있어서 이걸 영어로 수동으로 바꿔줬다. R에서 한글 변수명이 자꾸만 에러를 내서, 그냥 수동으로 엑셀에서 바꿔졌다(나중에 생각해보니, 일단 불러들인 다음에 ..
원 소스는 아래 사이트 참조하세요. https://stat-and-news-by-daragon9.tistory.com/ 춤추는초코칩의 통계흥신소 통계분석, 데이터분석, 통계 패키지, 프로그래밍 언어 stat-and-news-by-daragon9.tistory.com 춤추는 초코칩의 통계흥신소(이하, 춤초통) 님의 코드를 약간 변형하여 data.go.kr 사이트에서 제공되는 airKorea의 open API 자료를 읽어들이는 코드를 작성하였습니다. 1. data.go.kr 에 회원가입하신 후에 에어코리아 관련 servicekey 를 받습니다. 신청하면 자동으로 서비스키가 생성이 됩니다. 2. 워드 파일로 되어 있는 참고자료를 다운 받아서 예시를 살펴보고, 원하는 자료의 URL 이 어떤 형태로 되어야 하는지..
https://youtu.be/PI_Lrl0mi7Q
1종/2종 오류 그림 그리는 법
통계학이나 계량경제학 교과서에회귀선과 추정 후 잔차를 표시하는 그림이 자주 등장한다.이런 그림 사실 회귀선이란 것이 이런 잔차의 제곱의 합을 가장 작게 만들어주는 선이다. 관측치를 관통한다는 것의 조작적 의미는 이런 것이다. 이 그림을 Stata에서 구현해보자.clear* 변수 생성set seed 12345624set obs 20gen x = runiform(0,10) gen e = rnormal()gen y = 1 + x + e * 회귀분석reg y xpredict yhatpredict ehat , residformat ehat %9.1f * 그림twoway ///(rcapsym yhat y x if ehat > 0,sort lpattern(dash) color(blue%70) msymbol(none)..
Stata 에서 분석한 결과물을 Word 파일에 그대로 담을 수 있는 방법이 있습니다.명령어 putdocx 를 사용하면 비교적 편리하게 생성할 수 있습니다.실제 사용해보니, 문장을 만들기가 좀 번거롭고, 요약통계량 등의 표를 워드로 내보내기가 쉽지는 않았습니다.테이블을 자료의 형태로 생성해서 그걸 내보내거나, 메트릭스의 형태로 내보내야 하는데추가적인 작업을 해야되서 바쁜 연구자들은 매우 귀찮아 할 것 같습니다. 나중에 outreg2 같은 결과물들도 쉽게 포함할 수 있으면 좋겠다.또 한 가지 난점은, 워드는 괜찮은데 아래아에서 워드 파일을 읽을 때 잘 읽혀지지 않았습니다.한워드에서는 잘 작동하긴 합니다. 한글에서 워드 파일 읽어들이는 기능이 개선이 되면, Stata -> 워드 -> 아래아로 이어지는 문서편..
(version 0.3)통계학, 계량경제학, 생물통계학 등에서 수 많은 추정방법이 제안되었음에도 불구하고, 실증 연구자들이 가장 많이 사용하는 추정방법은 회귀분석(regression)이다. 구조모형 같은 다른 추정방법을 사용하는 경우에도 회귀분석을 먼저 해 본 이후에 구조모형을 추정하면 크게 망치는 법이 없다. 사전에 회귀분석을 하지 않고 구조모형에 그대로 달려들었다가 사단다는 경우 많이 봤다. 회귀분석을 했는데 발견하기 어려웠던 결과가 복잡한 추정방법을 사용해서 나오는 경우는 거의 없다.그런 의미에서 회귀분석은 모든 실증 연구의 시작이라고 볼 수 있다. 이러한 회귀분석이라는 단어는 누가 언제 어떻게 사용하기 시작했을까?회귀(regression)라는 단어를 처음 사용한 사람은 Galton(1885)이다...
$$\chi^{2} (n)$$의 $$n$$의 변화에 따른 분포
C. Huber의 Stata blog의 애니메이션 예제 파일 중 2번째 프로젝트 lowes 추정 과정을 보여줄 수 있는 애니메이션입니다. sysuse auto, clearlocal width = 1500forvalues UB = 3500(500)15000 { local LB = `UB' - `width' twoway (scatter mpg price , color(%30) mlwidth(none)) /// (lowess mpg price if price `LB' & price