Leçon 1Analyse expression différentielle : DESeq2, edgeR, limma-voom — conception modèle, contrastes et correction tests multiplesCette section détaille workflows expression différentielle avec DESeq2, edgeR et limma-voom, en se concentrant sur conception modèle, contrastes, estimation dispersion et correction tests multiples pour obtenir listes de gènes fiables et estimations taille d'effet.
Conception modèles expérimentaux et covariablesDéfinition contrastes pour comparaisons complexesExécution workflow DESeq2 bout en boutUtilisation pipelines edgeR et limma-voomCorrection tests multiples et contrôle FDRInterprétation changements log2 fold et rétrécissementLeçon 2Organisation données et conventions nommage fichiers : feuilles échantillons, séparation brut/traité, identifiants cohérentsCette section décrit meilleures pratiques pour organiser fichiers projets RNA-seq, incluant feuilles échantillons, dispositions répertoires, séparation données brutes versus traitées, et identifiants cohérents simplifiant scripts, suivi et reproductibilité.
Conception hiérarchie répertoires claireSéparation données brutes et traitéesCréation feuilles échantillons et métadonnées robustesIdentifiants échantillons et librairies cohérentsVersionnage génomes référence et indicesSauvegarde et archivage données projetLeçon 3Stratégies quantification niveau gène : featureCounts, htseq-count, tximport pour summarisation transcript-gèneCette section explique quantification niveau gène à partir lectures alignées ou pseudo-alignées, comparant featureCounts et htseq-count, et détaillant comment tximport agrège estimations niveau transcript en matrices niveau gène robustes pour analyse statistique en aval.
Comptage lectures avec options featureCountsUtilisation modes htseq-count et annotationsGestion brinage et lectures multimappéesImport Salmon et kallisto avec tximportConstruction matrices comptages niveau gèneÉvaluation qualité quantification et couvertureLeçon 4Outils téléchargement et organisation données : SRA Toolkit (prefetch/fastq-dump), ENA FTP/Aspera, wget/rsync, entrées/sorties recommandéesCette section couvre stratégies fiables pour télécharger et organiser données RNA-seq, en se concentrant sur SRA Toolkit, accès ENA, outils transfert ligne de commande, et définition structures entrée/sortie cohérentes supportant automatisation et reproductibilité.
Utilisation prefetch et fasterq-dump SRA ToolkitAccès ENA via FTP et AsperaTéléchargement sécurisé avec wget et rsyncChoix formats fichiers bruts et traitésDocumentation métadonnées téléchargement et sommes de contrôleAutomatisation téléchargements avec scripts et logsLeçon 5Outils contrôle qualité et sorties : FastQC, MultiQC, métriques clés à inspecter (qualité par base, contenu adaptateurs, duplication, GC)Cette section se concentre sur contrôle qualité RNA-seq, utilisant FastQC et MultiQC pour résumer métriques clés comme qualité par base, contamination adaptateurs, duplication et contenu GC, et décider si élagage ou reséquençage requis.
Exécution FastQC sur lectures brutes et élaguéesInterprétation profils qualité par baseDétection adaptateurs et séquences surreprésentéesÉvaluation duplication et contenu GCAgrégation rapports avec MultiQCDéfinition seuils QC et actionsLeçon 6Élagage et filtrage lectures : quand élaguer, outils (Trim Galore/Cutadapt/fastp), paramètres principaux et sortiesCette section explique quand et comment élaguer lectures RNA-seq, couvrant élagage adaptateurs et qualité, filtrage longueur, et paramètres clés dans outils comme Trim Galore, Cutadapt et fastp, en évitant sur-élagage nuisant analyses en aval.
Décision nécessité élagageStratégies détection et retrait adaptateursSeuils élagage basés sur qualitéFiltres longueur minimale et complexitéOptions Trim Galore et CutadaptFastp pour QC et élagage intégrésLeçon 7Analyses en aval de base : enrichissement GO/KEGG (clusterProfiler), GSEA preranked, visualisation voies, sélection ensembles gènesCette section introduit analyses fonctionnelles en aval après expression différentielle, incluant enrichissement GO et KEGG avec clusterProfiler, GSEA preranked, visualisation voies, et stratégies principes pour sélectionner et filtrer ensembles gènes.
Préparation listes gènes classés pour GSEAEnrichissement GO et KEGG avec clusterProfilerChoix bases données ensembles gènes appropriéesVisualisation voies enrichies et réseauxFiltrage et priorisation ensembles gènesRapport résultats fonctionnels de façon reproductibleLeçon 8Disposition pipeline haut niveau : téléchargement données, QC, élagage, alignement/pseudo-alignement, quantification, expression différentielle, analyse en avalCette section présente structure globale pipeline RNA-seq, de acquisition données et QC via élagage, alignement ou pseudo-alignement, quantification, normalisation, expression différentielle et analyse fonctionnelle en aval, en soulignant workflows modulaires et scriptés.
Définition étapes pipeline et dépendancesPlanification entrées, sorties et flux fichiersIntégration QC, élagage et alignementLiaison quantification à analyse DEConnexion DE à workflows enrichissementDocumentation pipeline avec diagrammesLeçon 9Normalisation et analyse exploratoire données : limites TPM/FPKM, normalisation DESeq2, ACP, heatmaps distances échantillon-échantillonCette section couvre normalisation et analyse exploratoire données RNA-seq, discutant limites TPM et FPKM, normalisation basée DESeq2, stabilisation variance, analyse composantes principales et heatmaps distances échantillons pour détecter effets lot.
Limites mesures TPM et FPKMFacteurs taille DESeq2 et normalisationTransformations stabilisant variance et rlogAnalyse composantes principales échantillonsHeatmaps distances échantillon-échantillonDétection effets lot et valeurs aberrantesLeçon 10Meilleures pratiques visualisation de base : graphiques MA, volcano plots, heatmaps, dotplots voies, options rapports interactifs (R Markdown, Jupyter)Cette section introduit stratégies visualisation efficaces pour résultats RNA-seq, en soulignant communication claire expression différentielle, structure échantillons et changements voies avec graphiques statiques et rapports interactifs reproductibles en R Markdown ou Jupyter.
Construction et interprétation graphiques MAConception volcano plots clairs pour gènes DEConstruction heatmaps qualité publicationDotplots voies pour résultats enrichissementRapports RNA-seq interactifs R MarkdownVisualisation exploratoire basée JupyterLeçon 11Alignement vs pseudo-alignement : STAR, HISAT2, Salmon, kallisto — compromis et sorties (BAM, comptages transcript/gène)Cette section compare outils alignement comme STAR et HISAT2 avec pseudo-alignement comme Salmon et kallisto, soulignant compromis vitesse, précision, usage ressources et sorties incluant fichiers BAM et comptages niveau transcript ou gène.
Quand choisir aligners STAR ou HISAT2Configuration indices génome et annotationsUtilisation Salmon mode quasi-mappageExécution kallisto pour quantification rapideComparaison sorties BAM et style quant.sfBenchmark vitesse, mémoire et précision