수업 1차별 발현 분석: DESeq2, edgeR, limma-voom — 모델 설계, 대비, 다중 검정 보정DESeq2, edgeR, limma-voom을 사용한 차별 발현 워크플로우를 상세히 설명합니다. 모델 설계, 대비, 분산 추정, 다중 검정 보정을 중점으로 신뢰할 수 있는 유전자 목록과 효과 크기 추정을 얻습니다.
실험 모델 및 공변량 설계복잡한 비교를 위한 대비 설정DESeq2 엔드투엔드 워크플로우 실행edgeR 및 limma-voom 파이프라인 사용다중 검정 보정 및 FDR 제어log2 폴드 체인지 및 축소 해석수업 2데이터 정리 및 파일 명명 규칙: 샘플 시트, 원시/처리 분리, 일관된 식별자RNA-seq 프로젝트 파일 정리 모범 사례를 설명합니다. 샘플 시트, 디렉토리 레이아웃, 원시 대 처리 데이터 분리, 스크립팅, 추적, 재현성을 단순화하는 일관된 식별자를 포함합니다.
명확한 디렉토리 계층 설계원시 및 처리 데이터 분리강건한 샘플 시트 및 메타데이터 생성일관된 샘플 및 라이브러리 식별자참조 게놈 및 인덱스 버전 관리프로젝트 데이터 백업 및 아카이빙수업 3유전자 수준 정량화 전략: featureCounts, htseq-count, tximport을 통한 전사체-유전자 요약정렬 또는 유사 정렬 리드에서 유전자 수준 정량화를 설명합니다. featureCounts와 htseq-count 비교, tximport가 전사체 수준 추정을 강건한 유전자 수준 매트릭스로 집계하는 방법을 상세히 설명합니다.
featureCounts 옵션으로 리드 카운팅htseq-count 모드 및 주석 사용strandedness 및 다중 매핑 리드 처리tximport를 사용한 Salmon 및 kallisto 가져오기유전자 수준 카운트 매트릭스 구축정량화 품질 및 커버리지 평가수업 4데이터 다운로드 및 정리 도구: SRA Toolkit (prefetch/fastq-dump), ENA FTP/Aspera, wget/rsync, 권장 입력/출력RNA-seq 데이터 다운로드 및 정리 신뢰할 수 있는 전략을 다룹니다. SRA Toolkit, ENA 접근, 명령줄 전송 도구, 자동화 및 재현성을 지원하는 일관된 입력 출력 구조 정의에 중점을 둡니다.
SRA Toolkit prefetch 및 fasterq-dump 사용FTP 및 Aspera를 통한 ENA 접근wget 및 rsync 안전 다운로드원시 및 처리 파일 형식 선택다운로드 메타데이터 및 체크섬 문서화스크립트 및 로그를 사용한 다운로드 자동화수업 5품질 관리 도구 및 출력: FastQC, MultiQC, 검사할 주요 지표 (베이스당 품질, 어댑터 함량, 중복, GC)RNA-seq 품질 관리를 중점으로 FastQC와 MultiQC를 사용하여 베이스당 품질, 어댑터 오염, 중복, GC 함량과 같은 주요 지표를 요약하고, 트리밍 또는 재시퀀싱 필요 여부를 결정합니다.
원시 및 트림된 리드에 FastQC 실행베이스당 품질 프로파일 해석어댑터 및 과다 표현 서열 탐지중복 및 GC 함량 평가MultiQC로 보고서 집계QC 임계값 및 조치 정의수업 6리드 트리밍 및 필터링: 언제 트리밍할지, 도구 (Trim Galore/Cutadapt/fastp), 주요 매개변수 및 출력RNA-seq 리드를 언제 어떻게 트리밍할지 설명합니다. 어댑터 및 품질 트리밍, 길이 필터링, Trim Galore, Cutadapt, fastp의 주요 매개변수를 다루며, 하위 분석을 해치는 과도한 트리밍을 피합니다.
트리밍 필요성 결정어댑터 탐지 및 제거 전략품질 기반 트리밍 임계값최소 길이 및 복잡성 필터Trim Galore 및 Cutadapt 옵션 사용통합 QC 및 트리밍을 위한 fastp수업 7기본 하위 분석: GO/KEGG 농축 (clusterProfiler), GSEA 사전 순위, 경로 시각화, 유전자 세트 선택차별 발현 후 하위 기능 분석을 소개합니다. clusterProfiler를 사용한 GO 및 KEGG 농축, 사전 순위 GSEA, 경로 시각화, 유전자 세트 선택 및 필터링 원칙적 전략을 포함합니다.
GSEA를 위한 순위 유전자 목록 준비clusterProfiler를 사용한 GO 및 KEGG 농축적절한 유전자 세트 데이터베이스 선택농축 경로 및 네트워크 시각화유전자 세트 필터링 및 우선순위화기능 결과 재현 가능 보고수업 8고수준 파이프라인 레이아웃: 데이터 다운로드, QC, 트리밍, 정렬/유사정렬, 정량화, 차별 발현, 하위 분석데이터 획득 및 QC부터 트리밍, 정렬 또는 유사 정렬, 정량화, 정규화, 차별 발현, 하위 기능 분석까지 전체 RNA-seq 파이프라인 구조를 제시하며, 모듈식 스크립트 워크플로우를 강조합니다.
파이프라인 단계 및 종속성 정의입력, 출력, 파일 흐름 계획QC, 트리밍, 정렬 통합정량화를 DE 분석에 연결DE를 농축 워크플로우에 연결다이어그램으로 파이프라인 문서화수업 9정규화 및 탐색적 데이터 분석: TPM/FPKM 한계, DESeq2 정규화, PCA, 샘플-샘플 거리 히트맵RNA-seq 데이터의 정규화 및 탐색적 분석을 다룹니다. TPM 및 FPKM의 한계, DESeq2 기반 정규화, 분산 안정화, 주성분 분석, 배치 효과 탐지를 위한 샘플 거리 히트맵을 논의합니다.
TPM 및 FPKM 측정 한계DESeq2 크기 요인 및 정규화분산 안정화 및 rlog 변환샘플의 주성분 분석샘플-샘플 거리 히트맵배치 효과 및 이상치 탐지수업 10기본 시각화 모범 사례: MA 플롯, 화산 플롯, 히트맵, 경로 도트플롯, 대화형 보고서 옵션 (R Markdown, Jupyter)RNA-seq 결과의 효과적인 시각화 전략을 소개합니다. 차별 발현, 샘플 구조, 경로 변화를 명확히 전달하는 정적 플롯과 R Markdown 또는 Jupyter로 구축된 대화형 재현 가능 보고서를 강조합니다.
MA 플롯 구성 및 해석DE 유전자를 위한 명확한 화산 플롯 설계출판 품질 히트맵 구축농축 결과를 위한 경로 도트플롯대화형 R Markdown RNA-seq 보고서Jupyter 기반 탐색적 시각화수업 11정렬 vs 유사 정렬: STAR, HISAT2, Salmon, kallisto — 트레이드오프 및 출력 (BAM, 전사체/유전자카운트)STAR 및 HISAT2와 같은 정렬 기반 도구와 Salmon, kallisto와 같은 유사 정렬 도구를 비교합니다. 속도, 정확도, 자원 사용, BAM 파일 및 전사체 또는 유전자 수준 카운트를 포함한 출력의 트레이드오프를 강조합니다.
STAR 또는 HISAT2 정렬기 선택 시기게놈 인덱스 및 주석 구성준 매핑 모드에서 Salmon 사용신속 정량화를 위한 kallisto 실행BAM 및 quant.sf 스타일 출력 비교속도, 메모리, 정확도 벤치마킹