Leçon 1Analyse expression différentielle : DESeq2, edgeR, limma-voom — conception modèle, contrastes, correction tests multiplesCette section détaille workflows expression différentielle via DESeq2, edgeR et limma-voom, focalisés conception modèle, contrastes, estimation dispersion et correction tests multiples pour obtenir listes gènes fiables et estimations taille effet.
Conception modèles expérimentaux et covariablesDéfinition contrastes comparaisons complexesExécution workflow DESeq2 bout en boutUtilisation pipelines edgeR et limma-voomCorrection tests multiples et contrôle FDRInterprétation changements log2 fold et shrinkageLeçon 2Organisation données et conventions nommage fichiers : feuilles échantillons, séparation brut/traité, identifiants cohérentsCette section décrit meilleures pratiques organisation fichiers projet RNA-seq, incluant feuilles échantillons, dispositions répertoires, séparation données brutes versus traitées et identifiants cohérents simplifiant scripts, suivi et reproductibilité.
Conception hiérarchie répertoires claireSéparation données brutes et traitéesCréation feuilles échantillons et métadonnées robustesIdentifiants échantillons et librairies cohérentsVersionnage génomes référence et indexSauvegarde et archivage données projetLeçon 3Stratégies quantification niveau gène : featureCounts, htseq-count, tximport pour summarisation transcript-gèneCette section explique quantification niveau gène à partir lectures alignées ou pseudo-alignées, comparant featureCounts et htseq-count, et détaillant comment tximport agrège estimations niveau transcript en matrices gène robustes pour analyse statistique aval.
Comptage lectures options featureCountsModes htseq-count et annotationsGestion brinage et lectures multimappéesImport Salmon et kallisto via tximportConstruction matrices comptages niveau gèneÉvaluation qualité quantification et couvertureLeçon 4Outils téléchargement et organisation données : SRA Toolkit (prefetch/fastq-dump), ENA FTP/Aspera, wget/rsync, entrées/sorties recommandéesCette section couvre stratégies fiables téléchargement et organisation données RNA-seq, focalisées SRA Toolkit, accès ENA, outils transfert ligne commande et définition structures entrée sortie cohérentes supportant automatisation et reproductibilité.
Utilisation SRA Toolkit prefetch et fasterq-dumpAccès ENA via FTP et AsperaTéléchargement wget et rsync sécurisésChoix formats fichiers bruts et traitésDocumentation métadonnées téléchargement et checksumsAutomatisation téléchargements scripts et logsLeçon 5Outils contrôle qualité et sorties : FastQC, MultiQC, métriques clés inspecter (qualité par base, contenu adaptateurs, duplication, GC)Cette section focalise contrôle qualité RNA-seq, utilisant FastQC et MultiQC pour résumer métriques clés comme qualité par base, contamination adaptateurs, duplication et contenu GC, et décider si trimming ou reséquence nécessaire.
Exécution FastQC lectures brutes et triméesInterprétation profils qualité par baseDétection adaptateurs et séquences surreprésentéesÉvaluation duplication et contenu GCAgrégation rapports MultiQCDéfinition seuils QC et actionsLeçon 6Trimming et filtrage lectures : quand trimmer, outils (Trim Galore/Cutadapt/fastp), paramètres principaux et sortiesCette section explique quand et comment trimmer lectures RNA-seq, couvrant trimming adaptateurs et qualité, filtrage longueur, et paramètres clés outils comme Trim Galore, Cutadapt et fastp, évitant sur-trimming nuisant analyses aval.
Décision nécessité trimmingStratégies détection et suppression adaptateursSeuils trimming basés qualitéFiltres longueur minimale et complexitéOptions Trim Galore et CutadaptFastp pour QC et trimming intégrésLeçon 7Analyses aval basiques : enrichissement GO/KEGG (clusterProfiler), GSEA preranked, visualisation voies, sélection ensembles gènesCette section introduit analyses fonctionnelles aval après expression différentielle, incluant enrichissement GO et KEGG via clusterProfiler, GSEA preranked, visualisation voies et stratégies principes sélection et filtrage ensembles gènes.
Préparation listes gènes rangées GSEAEnrichissement GO et KEGG clusterProfilerChoix bases données ensembles gènes appropriéesVisualisation voies enrichies et réseauxFiltrage et priorisation ensembles gènesRapport résultats fonctionnels reproductiblesLeçon 8Disposition pipeline haut niveau : téléchargement données, QC, trimming, alignement/pseudo-alignement, quantification, expression différentielle, analyse avalCette section présente structure globale pipeline RNA-seq, de acquisition données et QC via trimming, alignement ou pseudo-alignement, quantification, normalisation, expression différentielle et analyse fonctionnelle aval, soulignant workflows modulaires scriptés.
Définition étapes pipeline et dépendancesPlanification entrées, sorties et flux fichiersIntégration QC, trimming et alignementLiaison quantification à analyse DEConnexion DE à workflows enrichissementDocumentation pipeline diagrammesLeçon 9Normalisation et analyse exploratoire données : limites TPM/FPKM, normalisation DESeq2, ACP, heatmaps distances échantillon-échantillonCette section couvre normalisation et analyse exploratoire données RNA-seq, discutant limites TPM et FPKM, normalisation DESeq2, stabilisation variance, analyse composantes principales et heatmaps distances échantillons pour détecter effets lot.
Limites mesures TPM et FPKMFacteurs taille DESeq2 et normalisationTransformations stabilisatrices variance et rlogAnalyse composantes principales échantillonsHeatmaps distances échantillon-échantillonDétection effets lot et outliersLeçon 10Meilleures pratiques visualisation basiques : graphiques MA, volcano plots, heatmaps, dotplots voies, options rapports interactifs (R Markdown, Jupyter)Cette section introduit stratégies visualisation efficaces résultats RNA-seq, soulignant communication claire expression différentielle, structure échantillons et changements voies via graphiques statiques et rapports interactifs reproductibles R Markdown ou Jupyter.
Construction et interprétation graphiques MAConception volcano plots clairs gènes DEConstruction heatmaps qualité publicationDotplots voies résultats enrichissementRapports RNA-seq R Markdown interactifsVisualisation exploratoire JupyterLeçon 11Alignement vs pseudo-alignement : STAR, HISAT2, Salmon, kallisto — compromis et sorties (BAM, comptages transcript/gène)Cette section compare outils alignement comme STAR et HISAT2 avec pseudo-alignement Salmon et kallisto, soulignant compromis vitesse, précision, usage ressources et sorties incluant fichiers BAM et comptages niveau transcript ou gène.
Choix aligners STAR ou HISAT2Configuration index génome et annotationsUtilisation Salmon mode quasi-mappingExécution kallisto quantification rapideComparaison sorties BAM et quant.sfBenchmark vitesse, mémoire et précision