Les 1Differentiële expressie analyse: DESeq2, edgeR, limma-voom — modelontwerp, contrasten en multiple-testing correctieDeze sectie beschrijft differentiële expressie workflows met DESeq2, edgeR en limma-voom, met focus op modelontwerp, contrasten, dispersie schatting en multiple-testing correctie om betrouwbare genlijsten en effectgrootte schattingen te verkrijgen.
Ontwerpen van experimentele modellen en covariaatInstellen van contrasten voor complexe vergelijkingenUitvoeren van DESeq2 end-to-end workflowGebruik van edgeR en limma-voom pipelinesMultiple-testing correctie en FDR controleInterpreteren van log2 fold changes en shrinkageLes 2Data organisatie en bestandsnaamconventies: monster sheets, raw/processed scheiding, consistente identificatorenDeze sectie beschrijft best practices voor het organiseren van RNA-seq projectbestanden, inclusief monster sheets, directory lay-outs, scheiding van ruwe versus verwerkte data en consistente identificatoren die scripting, tracking en reproduceerbaarheid vereenvoudigen.
Ontwerpen van een duidelijke directory hiërarchieScheiden van ruwe en verwerkte dataCreëren van robuuste monster sheets en metadataConsistente monster en bibliotheek identificatorenVersioning van referentie genomes en indicesBackup en archivering van project dataLes 3Gen-niveau kwantificatiestrategieën: featureCounts, htseq-count, tximport voor transcript-naar-gen samenvattingDeze sectie legt gen-niveau kwantificatie uit van gealignede of pseudo-gealignede reads, vergelijkt featureCounts en htseq-count, en beschrijft hoe tximport transcript-niveau schattingen aggregeert tot robuuste gen-niveau matrices voor downstream statistische analyse.
Tellen van reads met featureCounts optiesGebruik van htseq-count modi en annotatiesOmgaan met strandedness en multimapping readsImporteren van Salmon en kallisto met tximportOpbouwen van gen-niveau count matricesBeoordelen van kwantificatie kwaliteit en coverageLes 4Tools voor data download en organisatie: SRA Toolkit (prefetch/fastq-dump), ENA FTP/Aspera, wget/rsync, en aanbevolen inputs/outputsDeze sectie behandelt betrouwbare strategieën voor het downloaden en organiseren van RNA-seq data, met focus op SRA Toolkit, ENA toegang, command-line transfer tools en het definiëren van consistente input en output structuren die automatisering en reproduceerbaarheid ondersteunen.
Gebruik van SRA Toolkit prefetch en fasterq-dumpToegang tot ENA via FTP en AsperaDownloaden met wget en rsync veiligKiezen van ruwe en verwerkte bestandformatenDocumenteren van download metadata en checksumsAutomatiseren van downloads met scripts en logsLes 5Kwaliteitscontrole tools en outputs: FastQC, MultiQC, key metrics om te inspecteren (per-base kwaliteit, adapter content, duplicatie, GC)Deze sectie richt zich op RNA-seq kwaliteitscontrole, gebruikmakend van FastQC en MultiQC om key metrics samen te vatten zoals per-base kwaliteit, adapter contaminatie, duplicatie en GC content, en te beslissen of trimming of hersequencing nodig is.
Uitvoeren van FastQC op ruwe en getrimde readsInterpreteren van per-base kwaliteitsprofielenDetecteren van adapters en overgerepresenteerde sequentiesEvalueren van duplicatie en GC contentAggreggeren van rapporten met MultiQCDefiniëren van QC drempels en actiesLes 6Read trimming en filtering: wanneer trimmen, tools (Trim Galore/Cutadapt/fastp), belangrijkste parameters en outputsDeze sectie legt uit wanneer en hoe je RNA-seq reads trimt, inclusief adapter en kwaliteits trimming, lengte filtering en key parameters in tools zoals Trim Galore, Cutadapt en fastp, terwijl je over-trimming vermijdt die downstream analyses schaadt.
Beslissen of trimming noodzakelijk isAdapter detectie en verwijderingsstrategieënKwaliteitsgebaseerde trimming drempelsMinimale lengte en complexiteitsfiltersGebruik van Trim Galore en Cutadapt optiesFastp voor geïntegreerde QC en trimmingLes 7Basis downstream analyses: GO/KEGG verrijking (clusterProfiler), GSEA preranked, pathway visualisatie, en gen set selectieDeze sectie introduceert downstream functionele analyses na differentiële expressie, inclusief GO en KEGG verrijking met clusterProfiler, preranked GSEA, pathway visualisatie en principiële strategieën voor het selecteren en filteren van gen sets.
Voorbereiden van gerankte gen lijsten voor GSEAGO en KEGG verrijking met clusterProfilerKiezen van geschikte gen set databasesVisualiseren van verrijkte pathways en netwerkenFilteren en prioriteren van gen setsRapportage van functionele resultaten reproduceerbaarLes 8Hoog-niveau pipeline lay-out: data download, QC, trimming, alignment/pseudo-alignment, kwantificatie, differentiële expressie, downstream analyseDeze sectie presenteert de algehele RNA-seq pipeline structuur, van data acquisitie en QC door trimming, alignment of pseudo-alignment, kwantificatie, normalisatie, differentiële expressie en downstream functionele analyse, met nadruk op modulaire, gescripte workflows.
Definiëren van pipeline stages en dependenciesPlannen van inputs, outputs en bestandflowIntegreren van QC, trimming en alignmentKoppelen van kwantificatie aan DE analyseVerbinden van DE aan verrijking workflowsDocumenteren van de pipeline met diagrammenLes 9Normalisatie en exploratieve data analyse: TPM/FPKM limieten, DESeq2 normalisatie, PCA, sample-sample afstand heatmapsDeze sectie behandelt normalisatie en exploratieve analyse van RNA-seq data, bespreekt limieten van TPM en FPKM, DESeq2-gebaseerde normalisatie, variant stabilisatie, principal component analyse en sample afstand heatmaps voor het detecteren van batch effecten.
Limieten van TPM en FPKM measuresDESeq2 size factors en normalisatieVariance-stabiliserende en rlog transformatiesPrincipal component analyse van samplesSample-sample afstand heatmapsDetecteren van batch effecten en outliersLes 10Basis visualisatie best practices: MA plots, vulkaan plots, heatmaps, pathway dotplots, en interactieve rapport opties (R Markdown, Jupyter)Deze sectie introduceert effectieve visualisatiestrategieën voor RNA-seq resultaten, met nadruk op duidelijke communicatie van differentiële expressie, sample structuur en pathway veranderingen met statische plots en interactieve, reproduceerbare rapporten in R Markdown of Jupyter.
Opbouwen en interpreteren van MA plotsOntwerpen van duidelijke vulkaan plots voor DE genenOpbouwen van publicatie-kwaliteit heatmapsPathway dotplots voor verrijking resultatenInteractieve R Markdown RNA-seq rapportenJupyter-gebaseerde exploratieve visualisatieLes 11Alignment vs pseudo-alignment: STAR, HISAT2, Salmon, kallisto — trade-offs en outputs (BAM, transcript/genecounts)Deze sectie vergelijkt alignment-gebaseerde tools zoals STAR en HISAT2 met pseudo-alignment tools zoals Salmon en kallisto, benadrukt trade-offs in snelheid, nauwkeurigheid, resource gebruik en outputs inclusief BAM bestanden en transcript of gen-niveau counts.
Wanneer kiezen voor STAR of HISAT2 alignersConfigureren van genome indexes en annotatiesGebruik van Salmon in quasi-mapping modusUitvoeren van kallisto voor snelle kwantificatieVergelijken van BAM en quant.sf stijl outputsBenchmarken van snelheid, geheugen en nauwkeurigheid