Урок 1Анализ дифференциальной экспрессии: DESeq2, edgeR, limma-voom — дизайн модели, контрасты и коррекция множественного тестированияЭтот раздел детализирует рабочие процессы дифференциальной экспрессии с использованием DESeq2, edgeR и limma-voom, фокусируясь на дизайне модели, контрастах, оценке дисперсии и коррекции множественного тестирования для получения надёжных списков генов и оценок размеров эффектов.
Designing experimental models and covariatesSetting contrasts for complex comparisonsRunning DESeq2 end-to-end workflowUsing edgeR and limma-voom pipelinesMultiple-testing correction and FDR controlInterpreting log2 fold changes and shrinkageУрок 2Организация данных и конвенции именования файлов: листы образцов, разделение raw/processed, последовательные идентификаторыЭтот раздел описывает лучшие практики организации файлов проекта RNA-seq, включая листы образцов, структуры директорий, разделение сырых против обработанных данных и последовательные идентификаторы, упрощающие скриптинг, отслеживание и воспроизводимость.
Designing a clear directory hierarchySeparating raw and processed dataCreating robust sample sheets and metadataConsistent sample and library identifiersVersioning reference genomes and indicesBacking up and archiving project dataУрок 3Стратегии квантификации на уровне генов: featureCounts, htseq-count, tximport для суммирования транскрипт-генЭтот раздел объясняет квантификацию на уровне генов из выровненных или псевдовыровненных прочтений, сравнивая featureCounts и htseq-count, и детализируя, как tximport агрегирует оценки на уровне транскриптов в надёжные матрицы на уровне генов для статистического анализа на последующих этапах.
Counting reads with featureCounts optionsUsing htseq-count modes and annotationsHandling strandedness and multimapping readsImporting Salmon and kallisto with tximportBuilding gene-level count matricesAssessing quantification quality and coverageУрок 4Инструменты для скачивания и организации данных: SRA Toolkit (prefetch/fastq-dump), ENA FTP/Aspera, wget/rsync и рекомендуемые входы/выходыЭтот раздел охватывает надёжные стратегии скачивания и организации данных RNA-seq, фокусируясь на SRA Toolkit, доступе ENA, инструментах передачи командной строки и определении последовательных структур входных и выходных данных, поддерживающих автоматизацию и воспроизводимость.
Using SRA Toolkit prefetch and fasterq-dumpAccessing ENA via FTP and AsperaDownloading with wget and rsync safelyChoosing raw and processed file formatsDocumenting download metadata and checksumsAutomating downloads with scripts and logsУрок 5Инструменты контроля качества и выходы: FastQC, MultiQC, ключевые метрики для инспекции (качество по базам, содержание адаптеров, дупликация, GC)Этот раздел фокусируется на контроле качества RNA-seq, используя FastQC и MultiQC для суммирования ключевых метрик, таких как качество по базам, загрязнение адаптерами, дупликация и содержание GC, и принятия решений о необходимости триминга или повторного секвенирования.
Running FastQC on raw and trimmed readsInterpreting per-base quality profilesDetecting adapters and overrepresented sequencesEvaluating duplication and GC contentAggregating reports with MultiQCDefining QC thresholds and actionsУрок 6Триминг и фильтрация прочтений: когда триминговать, инструменты (Trim Galore/Cutadapt/fastp), основные параметры и выходыЭтот раздел объясняет, когда и как триминговать прочтения RNA-seq, охватывая триминг адаптеров и качества, фильтрацию длины и ключевые параметры в инструментах, таких как Trim Galore, Cutadapt и fastp, избегая чрезмерного триминга, вредящего анализам на последующих этапах.
Deciding whether trimming is necessaryAdapter detection and removal strategiesQuality-based trimming thresholdsMinimum length and complexity filtersUsing Trim Galore and Cutadapt optionsFastp for integrated QC and trimmingУрок 7Базовые анализы на последующих этапах: обогащение GO/KEGG (clusterProfiler), GSEA preranked, визуализация путей и выбор наборов геновЭтот раздел вводит функциональные анализы на последующих этапах после дифференциальной экспрессии, включая обогащение GO и KEGG с clusterProfiler, preranked GSEA, визуализацию путей и принципиальные стратегии выбора и фильтрации наборов генов.
Preparing ranked gene lists for GSEAGO and KEGG enrichment with clusterProfilerChoosing appropriate gene set databasesVisualizing enriched pathways and networksFiltering and prioritizing gene setsReporting functional results reproduciblyУрок 8Высокоуровневая структура pipeline: скачивание данных, QC, триминг, выравнивание/псевдовыравнивание, квантификация, дифференциальная экспрессия, анализ на последующих этапахЭтот раздел представляет общую структуру pipeline RNA-seq, от приобретения данных и QC через триминг, выравнивание или псевдовыравнивание, квантификацию, нормализацию, дифференциальную экспрессию и функциональный анализ на последующих этапах, подчёркивая модульные, скриптовые рабочие процессы.
Defining pipeline stages and dependenciesPlanning inputs, outputs, and file flowIntegrating QC, trimming, and alignmentLinking quantification to DE analysisConnecting DE to enrichment workflowsDocumenting the pipeline with diagramsУрок 9Нормализация и исследовательский анализ данных: ограничения TPM/FPKM, нормализация DESeq2, PCA, тепловые карты расстояний образец-образецЭтот раздел охватывает нормализацию и исследовательский анализ данных RNA-seq, обсуждая ограничения TPM и FPKM, нормализацию на основе DESeq2, стабилизацию дисперсии, анализ главных компонент и тепловые карты расстояний между образцами для обнаружения эффектов батча.
Limitations of TPM and FPKM measuresDESeq2 size factors and normalizationVariance-stabilizing and rlog transformsPrincipal component analysis of samplesSample-sample distance heatmapsDetecting batch effects and outliersУрок 10Лучшие практики базовой визуализации: MA-графики, вулканические графики, тепловые карты, dotplots путей и опции интерактивных отчётов (R Markdown, Jupyter)Этот раздел вводит эффективные стратегии визуализации результатов RNA-seq, подчёркивая ясную коммуникацию дифференциальной экспрессии, структуры образцов и изменений путей с использованием статических графиков и интерактивных, воспроизводимых отчётов, построенных в R Markdown или Jupyter.
Constructing and interpreting MA plotsDesigning clear volcano plots for DE genesBuilding publication-quality heatmapsPathway dotplots for enrichment resultsInteractive R Markdown RNA-seq reportsJupyter-based exploratory visualizationУрок 11Выравнивание vs псевдовыравнивание: STAR, HISAT2, Salmon, kallisto — компромиссы и выходы (BAM, счётчики транскрипт/ген)Этот раздел сравнивает инструменты на основе выравнивания, такие как STAR и HISAT2, с инструментами псевдовыравнивания вроде Salmon и kallisto, выделяя компромиссы в скорости, точности, использовании ресурсов и выходах, включая файлы BAM и счётчики на уровне транскриптов или генов.
When to choose STAR or HISAT2 alignersConfiguring genome indexes and annotationsUsing Salmon in quasi-mapping modeRunning kallisto for rapid quantificationComparing BAM and quant.sf style outputsBenchmarking speed, memory, and accuracy