구글 트렌드 자료는 아래와 같이 정의된다. 구글에 검색 요청이 들어왔던 자료를 정규화 시켜 놓은 것이다. FAQ about Google Trends data Google Trends provides access to a largely unfiltered sample of actual search requests made to Google. It’s anonymized (no one is personally identified), categorized (determining the topic for a search query) and aggregated (grouped together). This allows us to display interest in a particular topic from arou..
R에서 google map을 이용하여 신규 커피집을 표시할 수 있다. 먼저 라이브러리 ggmap 을 로드하고, register_google() 함수를 이용하여 발급받은 API를 등록한다. 구글에서 검색해서 개발자로 등록하고, 신용카드 정보 넣으면 API 키를 준다. library('ggmap') register_google(key='구글API') 공공데이터 data.go.kr 사이트에 가서 소상공인진흥공단에서 제공한 파일 중 하나를 다운 받았다. https://www.data.go.kr/dataset/15012005/fileData.do 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•..
여기에 나와있는 코드를 약간 변형하여 시계열에 마지막 값을 표시하는 것입니다. AER 패키지에 있는 Grundfeld 자료를 불러들입니다. library(tidyverse) library(dplyr) library(AER) data("Grunfeld") a % top_n(1, year) %>% pull(value) ggplot의 보조축을 이용하여 끝 값을 표시하고, 약간의 분식을 하면 아래와 같은 그림을 얻을 수가 있습니다. a %>% select(year, value, firm) %>% ggplot(aes(x = year,y = value,color = firm)) + geom_line() + scale_y_continuous(sec.axis = sec_axis(~ ., breaks = a_ends))..
재정정보원 Q/A와 며칠 씨름을 하다가 2019년 예산을 뽑아내는 코드를 완성했다. 아직까지 pIndex는 어떤 변수인지 알 수가 없지만, 어쨋든 중복이 있더라도 주욱 뽑고 중복을 제거하는 방식을 사용하였다. budget % treemap(index = c("OFFC_NM", "PGM_NM"), vSize = "sum", type = "index", palette="RdYlBu", fontsize.labels=c(14,7), border.col=c("black","black"), border.lwds=c(1,0.5) , title = "부처별 예산액") 그러니가 아래와 같은 그림이 나오더라. 한 가지 해결이 안된 문제는 트리맵 크기가 생각보다 작게 만들어지는데 크기 조정하는 방법을 모르겠다. 나중에는 D..
아래에서 설명한대로 열린재정은 재정정보원에서 관리하는데 open API를 사용하기 위해서 전화도 해보고 문의도 해보았는데, 뭐 공공기관 답게 담당자에게 전화 토스 하면서 아무 해결도 되지 않았다. 여하튼, 마구 감으로 대충 URL 형태를 추측해가면서 자료를 추출해보았다. 예산사업을 먼저 추출하였다. 문제는 한 번에 1000개 밖에 추출이 안되던데, 그 이상 추출하는 방법을 모르겠다. 예산사업이 매년 1만개 넘어가는데, 이것 좀 해결되면 좋겠다. 필요한 라이브러리는 적절히 로드하시길. url0 = "http://openapi.openfiscaldata.go.kr/ExpenditureBudgetInit1?" api_key = "Key=(인증키)&" type = "Type=xml&" pIndex = "pInd..
http://www.openfiscaldata.go.kr/portal/main.do 일단 잘 안된다. 아무래도 재정정보를 이용해 뭘 하려는 사람이 거의 없어서 그런지 설명문서도 2015년 것이 최근이고 관리가 잘 안되고 있는 것 같다. URL 예가 나오면 좋은데, 그런 것이 구비가 되어 있지 않다(되어는 있는데 개발자가 용역금액에 불만이 있었었는지 하다 말은 것 같다). 시간은 몇 시간 썼는데, 관측치 5개 짜리 샘플 데이터 끌어다 쓴느데 만족해야겠다. 어쨋든 xml 형태로 샘플데이터를 받고, 아래 게시물에서 구했던 2015년 GDP를 이용한 국가채무비율을 다시 계산하였다. 2018년 국가채무비율은 38.2% 였는데, 바뀐 기준으로는 35.9%까지 내려가더라. url % bind_rows() %>% sp..
이번 학기 동안 우리 공장에 공원이 없어서 자료를 직접 수집하고 클리닝 하게 된다(요즘말로는 전처리). 예전 같으면 사이트 방문하면서 다운 받아서 정리를 시작하는데, 그것도 귀찮아져서 공공 사이트는 open API를 사용하게 된다. 기관마다 달라서 시간이 좀 걸리는데, 하는 김에 대충 정리해 놓으면 나중에 편할 것 같아서 정리해본다. 이번에는 한국은행 open API 에 대해서 설명해보자. 1. 한국은행 -> 통계 -> open API 에 가서 인증키를 신청하고 받자. 2. 통계코드와 항목코드를 확인하자. 오늘은 GDP가 업데이트 되었기 때문에 다음의 항목을 불러보자. a. 연간 GDP: 111Y002 b. 원화 명목 GDP: 10101 3. 통계 조회 조건 설정 탭을 살펴보면, 요청인자가 나와 있다. ..
원래 숙련된 조교가 있으면 조교를 시키면 되는데 현재 숙련된 연구조교가 졸업을 하고 취업한 관계로 좀 귀찮지만 후다닥 공기질 정보를 담고 있는 마스터 파일을 만드는 코드를 후다닥(효율화하고는 거리가 멀다) 짰다. 사실 오후 내내 다운 받고 짰다. 참고로 open API는 과거 3달치 자료만 접속이 가능해서 어차피 과거 자료를 하려면 노가다를 한 번은 해야한다. 1. airkorea 사이트를 뒤지면 연도별 확정자료가 나오는데, 그걸 다운 받는다. - 압축파일인데, 분기별 자료가 들어가 있다. 2. 약간 귀찮은 단계가 있는데, 엑셀에서 변수명 중 한글이 있어서 이걸 영어로 수동으로 바꿔줬다. R에서 한글 변수명이 자꾸만 에러를 내서, 그냥 수동으로 엑셀에서 바꿔졌다(나중에 생각해보니, 일단 불러들인 다음에 ..
원 소스는 아래 사이트 참조하세요. https://stat-and-news-by-daragon9.tistory.com/ 춤추는초코칩의 통계흥신소 통계분석, 데이터분석, 통계 패키지, 프로그래밍 언어 stat-and-news-by-daragon9.tistory.com 춤추는 초코칩의 통계흥신소(이하, 춤초통) 님의 코드를 약간 변형하여 data.go.kr 사이트에서 제공되는 airKorea의 open API 자료를 읽어들이는 코드를 작성하였습니다. 1. data.go.kr 에 회원가입하신 후에 에어코리아 관련 servicekey 를 받습니다. 신청하면 자동으로 서비스키가 생성이 됩니다. 2. 워드 파일로 되어 있는 참고자료를 다운 받아서 예시를 살펴보고, 원하는 자료의 URL 이 어떤 형태로 되어야 하는지..