Урок 1Аналіз диференціальної експресії: DESeq2, edgeR, limma-voom — дизайн моделі, контрасти та корекція множинного тестуванняЦей розділ деталізує робочі процеси диференціальної експресії за допомогою DESeq2, edgeR та limma-voom, фокусуючись на дизайні моделі, контрастах, оцінці дисперсії та корекції множинного тестування для отримання надійних списків генів та оцінок розміру ефекту.
Дизайн експериментальних моделей та коваріатНалаштування контрастів для складних порівняньЗапуск повного робочого процесу DESeq2Використання пайплайнів edgeR та limma-voomКорекція множинного тестування та контроль FDRІнтерпретація log2 fold changes та shrinkageУрок 2Організація даних та конвенції іменування файлів: таблиці зразків, розділення сирих/оброблених, узгоджені ідентифікаториЦей розділ описує найкращі практики організації файлів проекту RNA-seq, включаючи таблиці зразків, макети директорій, розділення сирих проти оброблених даних та узгоджені ідентифікатори, що спрощують скриптинг, відстеження та відтворюваність.
Дизайн чіткої ієрархії директорійРозділення сирих та оброблених данихСтворення надійних таблиць зразків та метаданихУзгоджені ідентифікатори зразків та бібліотекВерсіонування референсних геномів та індексівРезервне копіювання та архівування даних проектуУрок 3Стратегії кількісної оцінки на рівні гену: featureCounts, htseq-count, tximport для узагальнення транскрипт-до-генуЦей розділ пояснює кількісну оцінку на рівні гену з вирівняних або псевдовирівняних читань, порівнюючи featureCounts та htseq-count, та деталізує, як tximport агрегує оцінки на рівні транскрипту в надійні матриці на рівні гену для подальшого статистичного аналізу.
Підрахунок читань з опціями featureCountsВикористання режимів та анотацій htseq-countОбробка strandedness та мультимапінг читаньІмпорт Salmon та kallisto з tximportСтворення матриць підрахунків на рівні генуОцінка якості кількісної оцінки та покриттяУрок 4Інструменти для завантаження та організації даних: SRA Toolkit (prefetch/fastq-dump), ENA FTP/Aspera, wget/rsync та рекомендовані входи/виходиЦей розділ охоплює надійні стратегії завантаження та організації даних RNA-seq, фокусуючись на SRA Toolkit, доступі ENA, інструментах передачі командного рядка та визначенні узгоджених структур входу та виходу, що підтримують автоматизацію та відтворюваність.
Використання prefetch та fasterq-dump SRA ToolkitДоступ до ENA через FTP та AsperaБезпечне завантаження з wget та rsyncВибір форматів сирих та оброблених файлівДокументування метаданих завантаження та контрольних сумАвтоматизація завантажень зі скриптами та логамиУрок 5Інструменти контролю якості та виходи: FastQC, MultiQC, ключові метрики для інспекції (якість на базу, вміст адаптерів, дублювання, GC)Цей розділ фокусується на контролі якості RNA-seq, використовуючи FastQC та MultiQC для узагальнення ключових метрик, таких як якість на базу, забруднення адаптерами, дублювання та вміст GC, та для рішення, чи потрібне обрізання чи повторне секвенування.
Запуск FastQC на сирих та обрізаних читанняхІнтерпретація профілів якості на базуВиявлення адаптерів та перепредставлених послідовностейОцінка дублювання та вмісту GCАгрегування звітів з MultiQCВизначення порогів QC та дійУрок 6Обрізання та фільтрація читань: коли обрізати, інструменти (Trim Galore/Cutadapt/fastp), основні параметри та виходиЦей розділ пояснює, коли та як обрізати читання RNA-seq, охоплюючи обрізання адаптерів та якості, фільтрацію довжини та ключові параметри в інструментах, таких як Trim Galore, Cutadapt та fastp, уникаючи надмірного обрізання, що шкодить подальшим аналізами.
Рішення, чи необхідне обрізанняСтратегії виявлення та видалення адаптерівПороги обрізання на основі якостіФільтри мінімальної довжини та складностіВикористання опцій Trim Galore та CutadaptFastp для інтегрованого QC та обрізанняУрок 7Основні подальші аналізи: збагачення GO/KEGG (clusterProfiler), GSEA preranked, візуалізація шляхів, та відбір наборів генівЦей розділ вводить подальші функціональні аналізи після диференціальної експресії, включаючи збагачення GO та KEGG з clusterProfiler, preranked GSEA, візуалізацію шляхів та принципні стратегії відбору та фільтрації наборів генів.
Підготовка ранжованих списків генів для GSEAЗбагачення GO та KEGG з clusterProfilerВибір відповідних баз даних наборів генівВізуалізація збагачених шляхів та мережФільтрація та пріоритизація наборів генівВідтворюване звітування функціональних результатівУрок 8Високорівневий макет пайплайну: завантаження даних, QC, обрізання, вирівнювання/псевдовирівнювання, кількісна оцінка, диференціальна експресія, подальший аналізЦей розділ представляє загальну структуру пайплайну RNA-seq, від отримання даних та QC через обрізання, вирівнювання або псевдовирівнювання, кількісну оцінку, нормалізацію, диференціальну експресію та подальший функціональний аналіз, наголошуючи на модульних, скриптованих робочих процесах.
Визначення етапів пайплайну та залежностейПланування входів, виходів та потоку файлівІнтеграція QC, обрізання та вирівнюванняЗв'язок кількісної оцінки з аналізом DEПідключення DE до робочих процесів збагаченняДокументування пайплайну з діаграмамиУрок 9Нормалізація та дослідницький аналіз даних: обмеження TPM/FPKM, нормалізація DESeq2, PCA, теплові карти відстаней зразок-зразокЦей розділ охоплює нормалізацію та дослідницький аналіз даних RNA-seq, обговорюючи обмеження TPM та FPKM, нормалізацію на основі DESeq2, стабілізацію варіації, аналіз головних компонент, та теплові карти відстаней зразків для виявлення ефектів партії.
Обмеження мір TPM та FPKMФактори розміру DESeq2 та нормалізаціяТрансформації variance-stabilizing та rlogАналіз головних компонент зразківТеплові карти відстаней зразок-зразокВиявлення ефектів партії та викидівУрок 10Найкращі практики базової візуалізації: графіки MA, вулканічні графіки, теплові карти, точкові графіки шляхів та опції інтерактивних звітів (R Markdown, Jupyter)Цей розділ вводить ефективні стратегії візуалізації результатів RNA-seq, наголошуючи на чіткому спілкуванні диференціальної експресії, структури зразків та змін шляхів за допомогою статичних графіків та інтерактивних, відтворюваних звітів, створених в R Markdown або Jupyter.
Конструювання та інтерпретація графіків MAДизайн чітких вулканічних графіків для генів DEСтворення теплових карт публікаційної якостіТочкові графіки шляхів для результатів збагаченняІнтерактивні звіти RNA-seq R MarkdownДослідницька візуалізація на основі JupyterУрок 11Вирівнювання проти псевдовирівнювання: STAR, HISAT2, Salmon, kallisto — компроміси та виходи (BAM, transcript/genecounts)Цей розділ порівнює інструменти на основі вирівнювання, такі як STAR та HISAT2, з інструментами псевдовирівнювання, як Salmon та kallisto, виділяючи компроміси в швидкості, точності, використанні ресурсів та виходах, включаючи файли BAM та підрахунки на рівні транскрипту або гену.
Коли вибирати вирівнювачі STAR або HISAT2Налаштування індексів геному та анотаційВикористання Salmon в режимі quasi-mappingЗапуск kallisto для швидкої кількісної оцінкиПорівняння виходів стилю BAM та quant.sfБенчмаркінг швидкості, пам'яті та точності