Lektion 1Differentialexpressionsanalyse: DESeq2, edgeR, limma-voom — Modell-Design, Kontraste und Multiplestest-KorrekturDieser Abschnitt detailliert Differentialexpressions-Workflows mit DESeq2, edgeR und limma-voom, mit Fokus auf Modell-Design, Kontrasten, Dispersionsschätzung und Multiplestest-Korrektur, um zuverlässige Genlisten und Effektgrößenschätzungen zu erhalten.
Designing experimental models and covariatesSetting contrasts for complex comparisonsRunning DESeq2 end-to-end workflowUsing edgeR and limma-voom pipelinesMultiple-testing correction and FDR controlInterpreting log2 fold changes and shrinkageLektion 2Datenorganisation und Dateinamenskonventionen: Probenblätter, Raw/Processed-Trennung, konsistente IdentifikatorenDieser Abschnitt beschreibt Best Practices für die Organisation von RNA-seq-Projektdateien, einschließlich Probenblätter, Verzeichnislayouts, Trennung von rohen vs. verarbeiteten Daten und konsistente Identifikatoren, die Scripting, Tracking und Reproduzierbarkeit vereinfachen.
Designing a clear directory hierarchySeparating raw and processed dataCreating robust sample sheets and metadataConsistent sample and library identifiersVersioning reference genomes and indicesBacking up and archiving project dataLektion 3Gen-Level-Quantifizierungsstrategien: featureCounts, htseq-count, tximport für Transkript-zu-Gen-ZusammenfassungDieser Abschnitt erklärt Gen-Level-Quantifizierung aus alignierten oder pseudo-alignierten Reads, vergleicht featureCounts und htseq-count und detailliert, wie tximport Transkript-Level-Schätzungen in robuste Gen-Level-Matrizen für Downstream-Statistik aggregiert.
Counting reads with featureCounts optionsUsing htseq-count modes and annotationsHandling strandedness and multimapping readsImporting Salmon and kallisto with tximportBuilding gene-level count matricesAssessing quantification quality and coverageLektion 4Tools für Daten-Download und -Organisation: SRA Toolkit (prefetch/fastq-dump), ENA FTP/Aspera, wget/rsync und empfohlene Eingänge/AusgängeDieser Abschnitt behandelt zuverlässige Strategien zum Herunterladen und Organisieren von RNA-seq-Daten, mit Fokus auf SRA Toolkit, ENA-Zugang, Command-Line-Transfer-Tools und Definition konsistenter Eingangs- und Ausgangsstrukturen, die Automatisierung und Reproduzierbarkeit unterstützen.
Using SRA Toolkit prefetch and fasterq-dumpAccessing ENA via FTP and AsperaDownloading with wget and rsync safelyChoosing raw and processed file formatsDocumenting download metadata and checksumsAutomating downloads with scripts and logsLektion 5Qualitätskontroll-Tools und -Ausgaben: FastQC, MultiQC, zu inspizierende Schlüsselmetriken (Per-Base-Qualität, Adaptergehalt, Duplikation, GC)Dieser Abschnitt konzentriert sich auf RNA-seq-Qualitätskontrolle mit FastQC und MultiQC zur Zusammenfassung wichtiger Metriken wie Per-Base-Qualität, Adapterkontamination, Duplikation und GC-Gehalt und zur Entscheidung, ob Trimmen oder Resequenzierung erforderlich ist.
Running FastQC on raw and trimmed readsInterpreting per-base quality profilesDetecting adapters and overrepresented sequencesEvaluating duplication and GC contentAggregating reports with MultiQCDefining QC thresholds and actionsLektion 6Read-Trimming und -Filtern: Wann trimmen, Tools (Trim Galore/Cutadapt/fastp), Hauptparameter und -AusgabenDieser Abschnitt erklärt, wann und wie man RNA-seq-Reads trimmt, einschließlich Adapter- und Qualitäts-Trimmen, Längenfilterung und Schlüsselparametern in Tools wie Trim Galore, Cutadapt und fastp, während Über-Trimmen vermieden wird, das Downstream-Analysen schadet.
Deciding whether trimming is necessaryAdapter detection and removal strategiesQuality-based trimming thresholdsMinimum length and complexity filtersUsing Trim Galore and Cutadapt optionsFastp for integrated QC and trimmingLektion 7Grundlegende Downstream-Analysen: GO/KEGG-Anreicherung (clusterProfiler), GSEA preranked, Pfadvisualisierung und Genset-AuswahlDieser Abschnitt führt Downstream-funktionale Analysen nach Differentialexpression ein, einschließlich GO- und KEGG-Anreicherung mit clusterProfiler, preranked GSEA, Pfadvisualisierung und prinzipielle Strategien zur Auswahl und Filterung von Gensets.
Preparing ranked gene lists for GSEAGO and KEGG enrichment with clusterProfilerChoosing appropriate gene set databasesVisualizing enriched pathways and networksFiltering and prioritizing gene setsReporting functional results reproduciblyLektion 8Hochstufiges Pipeline-Layout: Daten-Download, QC, Trimmen, Alignment/Pseudo-Alignment, Quantifizierung, Differentialexpression, Downstream-AnalyseDieser Abschnitt stellt die Gesamtstruktur der RNA-seq-Pipeline dar, von Datenerwerb und QC über Trimmen, Alignment oder Pseudo-Alignment, Quantifizierung, Normalisierung, Differentialexpression und Downstream-funktionale Analyse, mit Betonung modularer, skriptbasierter Workflows.
Defining pipeline stages and dependenciesPlanning inputs, outputs, and file flowIntegrating QC, trimming, and alignmentLinking quantification to DE analysisConnecting DE to enrichment workflowsDocumenting the pipeline with diagramsLektion 9Normalisierung und explorative Datenanalyse: TPM/FPKM-Limits, DESeq2-Normalisierung, PCA, Proben-Proben-Distanz-HeatmapsDieser Abschnitt behandelt Normalisierung und explorative Datenanalyse von RNA-seq-Daten, diskutiert Limitationen von TPM und FPKM, DESeq2-basierte Normalisierung, Varianzstabilisierung, Hauptkomponentenanalyse und Proben-Distanz-Heatmaps zur Erkennung von Batch-Effekten.
Limitations of TPM and FPKM measuresDESeq2 size factors and normalizationVariance-stabilizing and rlog transformsPrincipal component analysis of samplesSample-sample distance heatmapsDetecting batch effects and outliersLektion 10Grundlegende Visualisierungs-Best-Practices: MA-Plots, Volcano-Plots, Heatmaps, Pfad-Dotplots und interaktive Berichtsoptionen (R Markdown, Jupyter)Dieser Abschnitt führt effektive Visualisierungsstrategien für RNA-seq-Ergebnisse ein, betont klare Kommunikation von Differentialexpression, Probenstruktur und Pfadänderungen mit statischen Plots und interaktiven, reproduzierbaren Berichten in R Markdown oder Jupyter.
Constructing and interpreting MA plotsDesigning clear volcano plots for DE genesBuilding publication-quality heatmapsPathway dotplots for enrichment resultsInteractive R Markdown RNA-seq reportsJupyter-based exploratory visualizationLektion 11Alignment vs. Pseudo-Alignment: STAR, HISAT2, Salmon, kallisto — Abwägungen und Ausgaben (BAM, Transkript/Gen-Zählungen)Dieser Abschnitt vergleicht alignment-basierte Tools wie STAR und HISAT2 mit Pseudo-Alignment-Tools wie Salmon und kallisto, hebt Abwägungen in Geschwindigkeit, Genauigkeit, Ressourcennutzung und Ausgaben wie BAM-Dateien und Transkript- oder Gen-Level-Zählungen hervor.
When to choose STAR or HISAT2 alignersConfiguring genome indexes and annotationsUsing Salmon in quasi-mapping modeRunning kallisto for rapid quantificationComparing BAM and quant.sf style outputsBenchmarking speed, memory, and accuracy