R-Blogger블로그·해설한국어2025-08-22
계통발생분석 기초 학습
🧬🔬 유전체에서 트리까지: R/Bioconductor 기반 계통학적 분석 워크플로우 소개 본 글에서는 10,000개가 넘는 E.coli 균주를 대상으로 16S rRNA를 추출하고, rapidNJ로 트리를 구축하며, FigTree로 시각화하는 과정을 R과 Bioconductor를 활용해 보여드립니다. 대규모 유전체 데이터셋을 다루는 방법을 학습하고, 계통학적 분석의 전반적인 흐름을 이해하시길 바랍니다. 동기 Bioconductor를 사용한 마지막 실습 이후, 우리는 계통학적 분석 여정을 이어가고자 합니다. 생물학자들이 어떻게 계통학적 트리를 구성하는지 궁금했으며, 이를 이해하고자 본 글을 작성하였습니다. 다시 한 번 Bioconductor를 활용해 보겠습니다. 면책 조항 저는 생물정보학자가 아니며 유전자와 직접적으로 작업하지 않습니다. 본 글에 제시된 기사와 방법은 유전체를 통해 어떻게 하나의 트리로 통합되는지 개요를 파악하려는 시도에 불과합니다. 확인해 주시고, 오류가 있으면 알려주시면 감사하겠습니다. 일부 분석 결과는 rmarkdown에서 knitting 중에 지연이 발생해 실행되지 않았으나, 게시된 결과는 재현 가능합니다. 재현이 불가한 경우에도 알려주시기 바랍니다. 최종 목표 1. 기본 워크플로우 습득 – 16S rRNA 추출부터 트리 시각화까지의 흐름을 파악합니다. 2. 다수의 E.coli 균주 평가 – 수천 개의 균주를 한 번에 분석합니다. 3. 다양한 속성의 균주를 하나의 트리에 통합 – 여러 속성의 균주를 한 트리에서 비교합니다. 4. 시각적으로 아름다운 트리 출력 – FigTree 등을 활용해 시각적으로 만족스러운 결과를 얻습니다. 목표 계통학적 분석이란? 계통학적 분석은 유기체 간의 진화적 관계를 연구하는 방법입니다. DNA나 RNA와 같은 유전 서열을 비교하여 종들이 공통 조상과 얼마나 가까운지를 추론합니다. 이 분석은 유전적 진화 경로를 파악하고, 접촉 추적 및 전염병 평가 등에 활용됩니다. 모든 Ecoli FASTA 다운로드 전통적으로 웹사이트에서 10,000개 이상의 FASTA를 다운로드하는 것은 불안정합니다. 대신 NCBI datasets CLI를 사용하면 안정적으로 다운로드가 가능합니다. 아래 명령어를 통해 dehydrated 파일을 먼저 내려받고, 필요 시 재hydrate(수화)할 수 있습니다. curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v2/mac/datasets' chmod +x datasets dataformat datasets download genome taxon "Escherichia coli" \ --assembly-level scaffold,chromosome,complete \ --dehydrated \ --filename ecoli_high_quality_dehydrated.zip unzip ecoli_genomes_dehydrated.zip cd ncbi_dataset datasets rehydrate --directory 위 명령에서 contig 대신 scaffold, chromosome, complete만 포함한 이유는 총 300,000개의 서열을 포함하면 압축 파일이 58GB가 되기 때문입니다. 우리는 30,000개 정도의 서열만 필요합니다. 용어 정의 Contig – “contiguous sequence”의 줄임말로, 격차 없이 이어진 DNA 서열입니다. Scaffold – 서로 상대적인 위치와 방향이 결정된 여러 contig를 모은 것입니다. 격차의 크기는 추정됩니다. Chromosome – scaffold와 contig가 모여 전체 염색체 수준의 서열이 완성된 것입니다. Complete – 모든 염색체가 빈틈 없이 완성된 가장 높은 수준의 어셈블리입니다. 워크플로우 개요 16S rRNA 추출 정렬(Align) 거리 계산(Distance Calculation) 트리 구축(Tree Construction) 트리 시각화(Visualizing Phylogenetic Tree) 16S rRNA 추출 본 단계에서는 E.coli와 ESBL E.coli 두 그룹을 대상으로 16S rRNA
원문 URL
전체 글은 원문 페이지에서 이어서 읽을 수 있습니다.
- 작성자
- R-Blogger
- 출처
- R-Blogger
- 플랫폼
- R-Blogger
- 분류
- 블로그·해설
- 언어
- 한국어
- 발행일
- 2025-08-22