R-Blogger블로그·해설한국어2023-10-17
Collapse 2.0 출시: 초고속 조인, 재구성, 강화된 R
collapse 2.0 출시 및 주요 기능 소개 collapse 2.0이 출시되었습니다. 이 버전에서는 초고속 조인, 피벗, 유연한 네임스페이스 및 많은 다른 기능이 추가되었으며, 새 웹사이트, 업데이트된 치트 시트, tidyverse 사용자에게 맞춘 새 비네트가 포함되어 있습니다. 핵심 기능: 빠른 조인 조인은 collapse에서 오랫동안 요청되었던 기능이었습니다. 이번 버전에서는 join() 함수를 제공하며, 다음과 같은 여섯 종류의 조인을 지원합니다: left, inner, full, right, semi, anti. how 인수를 통해 선택하며, 기본값은 left 조인입니다. 두 가지 알고리즘이 제공됩니다: 벡터화 해시 조인(기본, sort = FALSE)과 정렬-병합-조인(sort = TRUE). library(collapse) df1 # 예시 데이터프레임 df2 # 예시 데이터프레임 # 조인 예시 join(df1, df2, on = c("id1", "id2"), how = "left") 조인 중 경고 메시지를 억제하려면 overid = 2를 전달합니다. 고급 피벗 기능 collapse 2.0의 두 번째 주요 추가 기능은 pivot()입니다. longer, wider, recast 세 가지 모드로 데이터 재구성 기능을 하나의 API에서 제공합니다. 아래 예시는 2014년 Groningen Growth and Development Centre 데이터셋을 사용한 것입니다. # 긴 형식으로 변환 pivot(GGDC10S, ids = 1:5, names = list(variable = "Sectorcode", value = "Value"), labels = "Sector", how = "longer", na.rm = TRUE) | head() 넓은 형식으로 변환하는 예시는 다음과 같습니다. # 넓은 형식으로 변환 pivot(GGDC10S, ids = 1:5, names = "Variable", how = "wider", na.rm = TRUE) | namlab(N = TRUE, Ndistinct = TRUE) 재구성을 다시 원래 형태로 되돌리는 예시는 다음과 같습니다. # 재구성 역전 pivot(recast_df, values = c("VA", "EMP"), names = list(from = "Sectorcode", to = "Variable"), labels = list(from = "Sector"), how = "recast") | head(3) 전역 설정 및 인터랙티브 네임스페이스 마스킹 collapse 2.0에서는 set_collapse() 함수를 통해 전역 설정이 가능합니다. na.rm, sort, nthreads, stable.algo, stub, digits, verbose, mask, remove 등을 설정할 수 있습니다. 특히 mask 옵션을 사용하면 base R과 dplyr에 있는 함수의 이름 앞에 f- 접두어를 붙여 충돌을 방지하면서도, 필요 시 set_collapse(mask = NULL)를 호출해 원래 함수로 되돌릴 수 있습니다. # 예시: 그룹별 평균 계산 l <- c(1, 2, 3) m <- c(4, 5, 6) x <- rnorm(1000) # collapse 사용 system.time( l <- l > 1 m <- m > 1 x <- x > 1 ) 정리 및 전망 collapse 2.0은 R 사용자에게 빠르고, 클래스에 종속되지 않으며, 직관적인 조인과 피벗을 제공함으로써 데이터 조작과 통계 연산을 한층 편리하게 만들어 줍니다. 또한 전역 설정과 네임스페이스 마스킹 기능을 통해 기존 도구와 충돌 없이 고성능 기능을 사용할 수 있습니다. 이러한 기능들은 R의 본질적인 파라미터와 통계적 복잡성을 보존하면서, 향상된 성능을 실현하는 데 기여합니다. collapse 2.0을 통해 여러분의 R 작업이 더욱 효율적이고 즐거워지길 바랍니다.
원문 URL
전체 글은 원문 페이지에서 이어서 읽을 수 있습니다.
- 작성자
- R-Blogger
- 출처
- R-Blogger
- 플랫폼
- R-Blogger
- 분류
- 블로그·해설
- 언어
- 한국어
- 발행일
- 2023-10-17