Leçon 1Analyse expression différentielle : DESeq2, edgeR, limma-voom — conception modèle, contrastes, correction tests multiplesCette section détaille workflows expression différentielle utilisant DESeq2, edgeR et limma-voom, se focalisant conception modèle, contrastes, estimation dispersion et correction tests multiples pour obtenir listes gènes fiables et estimations tailles effets.
Conception modèles expérimentaux et covariablesDéfinition contrastes comparaisons complexesExécution workflow DESeq2 bout-en-boutUtilisation pipelines edgeR et limma-voomCorrection tests multiples et contrôle FDRInterprétation changements log2 fold et shrinkageLeçon 2Organisation données et conventions nommage fichiers : feuilles échantillons, séparation brut/traité, identifiants cohérentsCette section décrit meilleures pratiques organisation fichiers projet ARN-seq, incluant feuilles échantillons, dispositions répertoires, séparation données brutes versus traitées et identifiants cohérents simplifiant scripts, suivi et reproductibilité.
Conception hiérarchie répertoires claireSéparation données brutes et traitéesCréation feuilles échantillons et métadonnées robustesIdentifiants échantillons et librairies cohérentsVersionnage génomes référence et indicesSauvegarde et archivage données projetLeçon 3Stratégies quantification niveau gène : featureCounts, htseq-count, tximport pour summarisation transcript-gèneCette section explique quantification niveau gène à partir lectures alignées ou pseudo-alignées, comparant featureCounts et htseq-count, et détaillant comment tximport agrège estimations niveau transcript en matrices gène robustes pour analyse statistique aval.
Comptage lectures options featureCountsModes htseq-count et annotationsGestion brinage et lectures multimappéesImport Salmon et kallisto avec tximportConstruction matrices comptages niveau gèneÉvaluation qualité quantification et couvertureLeçon 4Outils téléchargement et organisation données : SRA Toolkit (prefetch/fastq-dump), ENA FTP/Aspera, wget/rsync, entrées/sorties recommandéesCette section couvre stratégies fiables téléchargement et organisation données ARN-seq, se focalisant SRA Toolkit, accès ENA, outils transfert ligne commande et définition structures entrée sortie cohérentes supportant automation et reproductibilité.
Utilisation SRA Toolkit prefetch et fasterq-dumpAccès ENA via FTP et AsperaTéléchargement sûr wget et rsyncChoix formats fichiers bruts et traitésDocumentation métadonnées téléchargement et checksumsAutomation téléchargements scripts et logsLeçon 5Outils contrôle qualité et sorties : FastQC, MultiQC, métriques clés inspecter (qualité par base, contenu adaptateurs, duplication, GC)Cette section se focalise contrôle qualité ARN-seq, utilisant FastQC et MultiQC pour résumer métriques clés comme qualité par base, contamination adaptateurs, duplication et contenu GC, et décider si trimming ou reséquence nécessaire.
Exécution FastQC lectures brutes et triméesInterprétation profils qualité par baseDétection adaptateurs et séquences surreprésentéesÉvaluation duplication et contenu GCAgrégation rapports avec MultiQCDéfinition seuils QC et actionsLeçon 6Trimming et filtrage lectures : quand trimmer, outils (Trim Galore/Cutadapt/fastp), paramètres principaux et sortiesCette section explique quand et comment trimmer lectures ARN-seq, couvrant trimming adaptateurs et qualité, filtrage longueur, et paramètres clés outils comme Trim Galore, Cutadapt et fastp, évitant sur-trimming nuisant analyses aval.
Décision nécessité trimmingStratégies détection et retrait adaptateursSeuils trimming basés qualitéFiltres longueur minimale et complexitéOptions Trim Galore et CutadaptFastp QC et trimming intégrésLeçon 7Analyses aval basiques : enrichissement GO/KEGG (clusterProfiler), GSEA preranked, visualisation voies, sélection ensembles gènesCette section introduit analyses fonctionnelles aval après expression différentielle, incluant enrichissement GO et KEGG avec clusterProfiler, GSEA preranked, visualisation voies et stratégies principes sélection et filtrage ensembles gènes.
Préparation listes gènes rangés GSEAEnrichissement GO et KEGG clusterProfilerChoix bases données ensembles gènes appropriéesVisualisation voies enrichies et réseauxFiltrage et priorisation ensembles gènesRapport résultats fonctionnels reproductiblesLeçon 8Disposition pipeline haut niveau : téléchargement données, QC, trimming, alignement/pseudo-alignement, quantification, expression différentielle, analyse avalCette section présente structure globale pipeline ARN-seq, acquisition données et QC via trimming, alignement ou pseudo-alignement, quantification, normalisation, expression différentielle et analyse fonctionnelle aval, soulignant workflows modulaires scriptés.
Définition étapes pipeline et dépendancesPlanification entrées, sorties et flux fichiersIntégration QC, trimming et alignementLiaison quantification à analyse DEConnexion DE à workflows enrichissementDocumentation pipeline avec diagrammesLeçon 9Normalisation et analyse exploratoire données : limites TPM/FPKM, normalisation DESeq2, ACP, heatmaps distances échantillon-échantillonCette section couvre normalisation et analyse exploratoire données ARN-seq, discutant limitations TPM et FPKM, normalisation DESeq2, stabilisation variance, analyse composantes principales et heatmaps distances échantillons détectant effets batch.
Limitations mesures TPM et FPKMFacteurs taille DESeq2 et normalisationTransformations stabilisant variance et rlogAnalyse composantes principales échantillonsHeatmaps distances échantillon-échantillonDétection effets batch et outliersLeçon 10Meilleures pratiques visualisation basique : graphiques MA, volcano plots, heatmaps, dotplots voies, options rapports interactifs (R Markdown, Jupyter)Cette section introduit stratégies visualisation efficaces résultats ARN-seq, soulignant communication claire expression différentielle, structure échantillons et changements voies utilisant graphiques statiques et rapports interactifs reproductibles R Markdown ou Jupyter.
Construction et interprétation graphiques MAConception volcano plots clairs gènes DEConstruction heatmaps qualité publicationDotplots voies résultats enrichissementRapports ARN-seq R Markdown interactifsVisualisation exploratoire basée JupyterLeçon 11Alignement vs pseudo-alignement : STAR, HISAT2, Salmon, kallisto — compromis et sorties (BAM, comptages transcript/gène)Cette section compare outils alignement comme STAR et HISAT2 avec pseudo-alignement Salmon et kallisto, soulignant compromis vitesse, précision, usage ressources et sorties incluant fichiers BAM et comptages niveau transcript ou gène.
Choix aligners STAR ou HISAT2Configuration indices génome et annotationsUtilisation Salmon mode quasi-mappingExécution kallisto quantification rapideComparaison sorties BAM et quant.sfBenchmark vitesse, mémoire et précision