경제학 연구에서 프로그래밍 언어 사용 비율

R-Blogger · 블로그·해설 · 2023-12-17

R-Blogger블로그·해설한국어2023-12-17

경제학 연구에서 프로그래밍 언어 사용 비율

My shiny app을 통한 경제학 논문 재현성 데이터 분석 이 shiny app은 현재 8,000개가 넘는 경제학 논문과 재현성 패키지를 포함하고 있습니다. 사용하실 수 있는 링크는 https://ejd.econ.mathematik.uni-ulm.de입니다. 논문 및 재현성 패키지에 포함된 파일 종류를 포함한 데이터는 저의 서버에서 ZIP 형태의 SQLite 데이터베이스로 다운로드할 수 있습니다 (앱 내 “About” 페이지에서 링크를 확인하실 수 있습니다). 데이터베이스에서 데이터 추출 다음 코드는 데이터베이스에서 두 테이블을 병합해 사용하려는 데이터셋을 추출합니다. library(RSQLite) library(dbmisc) library(dplyr) # 데이터베이스 연결 db = dbConnect(RSQLite::SQLite(),"articles.sqlite") # 테이블 가져오기 articles = dbGet(db,"article") fs = dbGet(db,"files_summary") # 데이터 정리 fs = fs %% left_join(select(articles, year, journ, id), by="id") 데이터 요약 이 데이터프레임은 각 논문과 해당 재현성 패키지에 포함된 공통 데이터 및 코드 파일 수를 보여줍니다. head(fs) # id file_type num_files mbis_code is_data year journ ... 파일 종류별 비율 계산 전체 재현성 패키지 수를 기준으로 각 파일 종류의 비율을 계산합니다. n_art = n_distinct(fs$id) fs %% group_by(file_type) %% summarize( count = n(), share = round((count / n_art)*100,1) ) %% filter(file_type %in% c("do","r","py","jl","m","java","c","cpp","nb","f90","f95", "sas","mod","js","g","gms","ztt")) %% arrange(desc(share)) 가장 많이 사용된 소프트웨어는 Stata로, 재현성 패키지의 71.6%에 .do 스크립트가 포함되어 있습니다. 그 뒤를 이어 Matlab(24.5%)과 오픈소스 언어 중 가장 인기 있는 R(9.8%)이 오며, SAS, Python이 그 다음에 위치합니다. 시간에 따른 사용 추이 (Stata, Matlab, R, Python) year_dat = fs %% filter(year = 2010) %% group_by(year) %% mutate(n_art_year = n_distinct(id)) %% group_by(year, file_type) %% summarize( count = n(), share = count / first(n_art_year), se = sqrt(share*(1-share)/first(n_art_year)), ci_up = share + 1.96*se, ci_low = share - 1.96*se ) %% filter(file_type %in% c("do","r","py","m")) %% arrange(year,desc(share)) ggplot2를 이용해 시각화한 결과, Stata와 Matlab의 사용 비율은 비교적 일정하지만, R과 Python의 사용 비율은 2010년대 초반 1% 미만에서 2023년에는 20%와 10%를 넘어서는 성장세를 보였습니다. 논문별 R 사용 비율 추이 year_journ_dat = fs %% filter(year = 2010) %% group_by(year, journ) %% mutate(n_art = n_distinct(id)) %% group_by(year, journ, file_type) %% summarize( count = n(), share = count / first(n_art), se = sqrt(share*(1-share)/first(n_art)), ci_up = share + 1.96*se, ci_low = share - 1.96*se ) R 사용 비율이 대부분의 저널에서 크게 증가함을 확인할 수 있습니다. 논문별 Stata 사용 비율 추이 Stata의 사용 비율은 일부 저널에서 일정하게 유지되었으며, 전체적으로는 변동이 적습니다.
원문 URL
전체 글은 원문 페이지에서 이어서 읽을 수 있습니다.
원문에서 전체 글 읽기
작성자
R-Blogger
출처
R-Blogger
플랫폼
R-Blogger
분류
블로그·해설
언어
한국어
발행일
2023-12-17