Bài học 1Phân tích biểu hiện khác biệt: DESeq2, edgeR, limma-voom — thiết kế mô hình, contrasts, và hiệu chỉnh kiểm định đaPhần này chi tiết workflow biểu hiện khác biệt sử dụng DESeq2, edgeR, và limma-voom, tập trung vào thiết kế mô hình, contrasts, ước lượng dispersion, và hiệu chỉnh kiểm định đa để có danh sách gen đáng tin cậy và ước lượng kích thước hiệu ứng.
Designing experimental models and covariatesSetting contrasts for complex comparisonsRunning DESeq2 end-to-end workflowUsing edgeR and limma-voom pipelinesMultiple-testing correction and FDR controlInterpreting log2 fold changes and shrinkageBài học 2Tổ chức dữ liệu và quy ước đặt tên file: bảng mẫu, tách thô/đã xử lý, định danh nhất quánPhần này mô tả thực hành tốt nhất để tổ chức file dự án RNA-seq, bao gồm bảng mẫu, bố trí thư mục, tách dữ liệu thô so với đã xử lý, và định danh nhất quán giúp đơn giản hóa scripting, theo dõi, và tái tạo.
Designing a clear directory hierarchySeparating raw and processed dataCreating robust sample sheets and metadataConsistent sample and library identifiersVersioning reference genomes and indicesBacking up and archiving project dataBài học 3Chiến lược định lượng cấp gen: featureCounts, htseq-count, tximport cho tổng hợp transcript-to-genePhần này giải thích định lượng cấp gen từ đọc đã align hoặc pseudo-align, so sánh featureCounts và htseq-count, và chi tiết cách tximport tổng hợp ước lượng cấp transcript thành ma trận cấp gen mạnh mẽ cho phân tích thống kê downstream.
Counting reads with featureCounts optionsUsing htseq-count modes and annotationsHandling strandedness and multimapping readsImporting Salmon and kallisto with tximportBuilding gene-level count matricesAssessing quantification quality and coverageBài học 4Công cụ tải xuống và tổ chức dữ liệu: SRA Toolkit (prefetch/fastq-dump), ENA FTP/Aspera, wget/rsync, và đầu vào/đầu ra khuyến nghịPhần này bao quát chiến lược đáng tin cậy để tải xuống và tổ chức dữ liệu RNA-seq, tập trung vào SRA Toolkit, truy cập ENA, công cụ chuyển command-line, và định nghĩa cấu trúc đầu vào đầu ra nhất quán hỗ trợ tự động hóa và tái tạo.
Using SRA Toolkit prefetch and fasterq-dumpAccessing ENA via FTP and AsperaDownloading with wget and rsync safelyChoosing raw and processed file formatsDocumenting download metadata and checksumsAutomating downloads with scripts and logsBài học 5Công cụ kiểm soát chất lượng và đầu ra: FastQC, MultiQC, chỉ số chính cần kiểm tra (chất lượng per-base, nội dung adapter, trùng lặp, GC)Phần này tập trung vào kiểm soát chất lượng RNA-seq, sử dụng FastQC và MultiQC để tóm tắt chỉ số chính như chất lượng per-base, ô nhiễm adapter, trùng lặp, và nội dung GC, và quyết định xem có cần trimming hoặc resequencing.
Running FastQC on raw and trimmed readsInterpreting per-base quality profilesDetecting adapters and overrepresented sequencesEvaluating duplication and GC contentAggregating reports with MultiQCDefining QC thresholds and actionsBài học 6Trimming và lọc đọc: khi nào trim, công cụ (Trim Galore/Cutadapt/fastp), tham số chính và đầu raPhần này giải thích khi nào và cách trim đọc RNA-seq, bao quát trimming adapter và chất lượng, lọc độ dài, và tham số chính trong công cụ như Trim Galore, Cutadapt, và fastp, tránh over-trimming hại phân tích downstream.
Deciding whether trimming is necessaryAdapter detection and removal strategiesQuality-based trimming thresholdsMinimum length and complexity filtersUsing Trim Galore and Cutadapt optionsFastp for integrated QC and trimmingBài học 7Phân tích downstream cơ bản: làm giàu GO/KEGG (clusterProfiler), GSEA preranked, trực quan hóa pathway, và chọn gene setPhần này giới thiệu phân tích chức năng downstream sau biểu hiện khác biệt, bao gồm làm giàu GO và KEGG với clusterProfiler, GSEA preranked, trực quan hóa pathway, và chiến lược chọn và lọc gene set có nguyên tắc.
Preparing ranked gene lists for GSEAGO and KEGG enrichment with clusterProfilerChoosing appropriate gene set databasesVisualizing enriched pathways and networksFiltering and prioritizing gene setsReporting functional results reproduciblyBài học 8Bố trí pipeline cấp cao: tải xuống dữ liệu, QC, trimming, alignment/pseudo-alignment, định lượng, biểu hiện khác biệt, phân tích downstreamPhần này trình bày cấu trúc pipeline RNA-seq tổng thể, từ thu thập dữ liệu và QC qua trimming, alignment hoặc pseudo-alignment, định lượng, chuẩn hóa, biểu hiện khác biệt, và phân tích chức năng downstream, nhấn mạnh workflow mô-đun, scripted.
Defining pipeline stages and dependenciesPlanning inputs, outputs, and file flowIntegrating QC, trimming, and alignmentLinking quantification to DE analysisConnecting DE to enrichment workflowsDocumenting the pipeline with diagramsBài học 9Chuẩn hóa và phân tích dữ liệu khám phá: hạn chế TPM/FPKM, chuẩn hóa DESeq2, PCA, heatmap khoảng cách mẫu-mẫuPhần này bao quát chuẩn hóa và phân tích khám phá dữ liệu RNA-seq, thảo luận hạn chế của TPM và FPKM, chuẩn hóa dựa trên DESeq2, ổn định phương sai, phân tích thành phần chính, và heatmap khoảng cách mẫu để phát hiện hiệu ứng lô.
Limitations of TPM and FPKM measuresDESeq2 size factors and normalizationVariance-stabilizing and rlog transformsPrincipal component analysis of samplesSample-sample distance heatmapsDetecting batch effects and outliersBài học 10Thực hành tốt nhất trực quan hóa cơ bản: MA plots, volcano plots, heatmaps, pathway dotplots, và tùy chọn báo cáo tương tác (R Markdown, Jupyter)Phần này giới thiệu chiến lược trực quan hóa hiệu quả cho kết quả RNA-seq, nhấn mạnh giao tiếp rõ ràng biểu hiện khác biệt, cấu trúc mẫu, và thay đổi pathway sử dụng plot tĩnh và báo cáo tương tác, tái tạo xây dựng trong R Markdown hoặc Jupyter.
Constructing and interpreting MA plotsDesigning clear volcano plots for DE genesBuilding publication-quality heatmapsPathway dotplots for enrichment resultsInteractive R Markdown RNA-seq reportsJupyter-based exploratory visualizationBài học 11Alignment so với pseudo-alignment: STAR, HISAT2, Salmon, kallisto — đánh đổi và đầu ra (BAM, transcript/genecounts)Phần này so sánh công cụ dựa trên alignment như STAR và HISAT2 với công cụ pseudo-alignment như Salmon và kallisto, nhấn mạnh sự đánh đổi về tốc độ, độ chính xác, sử dụng tài nguyên, và đầu ra bao gồm file BAM và đếm cấp transcript hoặc gen.
When to choose STAR or HISAT2 alignersConfiguring genome indexes and annotationsUsing Salmon in quasi-mapping modeRunning kallisto for rapid quantificationComparing BAM and quant.sf style outputsBenchmarking speed, memory, and accuracy