3차원 합성 데이터셋 탐색

R-Blogger블로그·해설한국어2025-04-22

3차원 합성 데이터셋 탐색

Exploring a 3‑D Synthetic DatasetBlueSky에서 HistData 패키지를 탐색하면서 몇 가지 과제를 수행해 왔습니다. 2월과 3월에는 DuBois Challenge에 참여해 W.E.B. Du Bois가 파리 박람회에서 만든 강력한 시각화를 일주일 안에 재현했습니다. 그 결과물과 코드는 제 GitHub에서 확인하실 수 있습니다.이러한 영감으로 #30DayChartChallenge에도 참여하며, 매일 다른 주제에 따라 차트를 하나씩 제작하고 있습니다. 이를 기회로 Michael Friendly의 HistData 패키지를 탐색해 보았습니다. 이 패키지는 Howard Wainer와 함께한 훌륭한 책을 기반으로 하고 있습니다. 저는 John Snow, Trial of the Pyx, Florence Nightingale 등 다양한 주제의 글을 제 GitHub에 올렸습니다.하지만 단순한 플롯으로는 충분히 표현되지 않는 데이터셋이 하나 있습니다. 바로 Pollen 데이터셋입니다. 이 데이터셋은 mtcars와 flights처럼 데이터 과제에 사용된 합성 데이터셋이며, plotly의 성능을 보여주는 좋은 예시가 됩니다.library(tidyverse) library(HistData) library(plotly) data("Pollen") head(Pollen) # A tibble: 6 × 5 # ridge nub crack weight density # 1 -2.35 3.63 5.03 10.9 -1.39 # 2 -1.15 1.48 3.24 -0.594 2.12 # 3 -2.52-6.86-2.80 8.46 -3.41 # 4 5.75-6.51-5.15 4.35 -10.30 # 5 8.75-3.90-1.38-14.9 -2.42 # 6 10.40-3.16-12.8-14.9 -6.49 p % layout(title = "David Coleman's Synthetic Pollen Dataset") %% config(displayModeBar = FALSE) p첫 번째 세 변수가 x, y, z 축으로 표시되고, 나머지 변수가 꽃가루 입자의 특성을 설명합니다. 상관분석을 빠르게 수행하면 색상으로 나타낼 수 있는 강한 상관관계가 하나 이상 있음을 확인할 수 있으며, 특히 weight가 x축과 높은 상관관계를 보입니다. 아래 이미지를 참고해 보시기 바랍니다.결과가 마음에 드셨나요? 아래 이미지와 같이 재현해 보았습니다. Eureka!인용BibTeX 인용 예시 (URL 제외):@online{russell2025, author = {Russell, John}, title = {Exploring a 3-D Synthetic Dataset}, date = {2025-04-12}, langid = {en} }인용 시에는 다음과 같이 표기해 주시면 됩니다: Russell, John. 2025. “Exploring a 3‑D Synthetic Dataset.” April 12, 2025.

원문 URL

전체 글은 원문 페이지에서 이어서 읽을 수 있습니다.

원문에서 전체 글 읽기

작성자: R-Blogger
출처: R-Blogger
플랫폼: R-Blogger
분류: 블로그·해설
언어: 한국어
발행일: 2025-04-22