Lekcja 1Analiza ekspresji różnicowej: DESeq2, edgeR, limma-voom — projektowanie modelu, kontrasty i korekta wielokrotnego testowaniaTen dział szczegółowo omawia przepływy pracy analizy ekspresji różnicowej z użyciem DESeq2, edgeR i limma-voom, koncentrując się na projektowaniu modelu, kontrastach, szacowaniu dyspersji oraz korekcie wielokrotnego testowania w celu uzyskania wiarygodnych list genów i szacunków efektów.
Projektowanie modeli eksperymentalnych i kowariatówUstawianie kontrastów dla złożonych porównańUruchamianie pełnego przepływu pracy DESeq2Używanie potoków edgeR i limma-voomKorekta wielokrotnego testowania i kontrola FDRInterpretacja log2 fold changes i skurczuLekcja 2Organizacja danych i konwencje nazewnictwa plików: arkusze próbek, separacja surowych/przetworzonych, spójne identyfikatoryTen dział opisuje najlepsze praktyki organizacji plików projektu RNA-seq, w tym arkusze próbek, układy katalogów, separację danych surowych od przetworzonych oraz spójne identyfikatory ułatwiające skryptyzację, śledzenie i powtarzalność.
Projektowanie czytelnej hierarchii katalogówSeparacja danych surowych i przetworzonychTworzenie solidnych arkuszy próbek i metadanychSpójne identyfikatory próbek i bibliotekWersjonowanie genomów referencyjnych i indeksówKopie zapasowe i archiwizacja danych projektuLekcja 3Strategie kwantyfikacji na poziomie genów: featureCounts, htseq-count, tximport do sumaryzacji transkrypt-do-genuTen dział wyjaśnia kwantyfikację na poziomie genów z odczytów zmapowanych lub pseudo-zmapowanych, porównując featureCounts i htseq-count, oraz szczegółowo opisuje, jak tximport agreguje szacunki na poziomie transkryptów do solidnych macierzy na poziomie genów dla dalszej analizy statystycznej.
Liczenie odczytów z opcjami featureCountsUżywanie trybów htseq-count i adnotacjiObsługa strandedness i odczytów multimappingowychImport Salmon i kallisto z tximportBudowanie macierzy liczebności genówOcena jakości kwantyfikacji i pokryciaLekcja 4Narzędzia do pobierania i organizacji danych: SRA Toolkit (prefetch/fastq-dump), ENA FTP/Aspera, wget/rsync i zalecane wejścia/wyjściaTen dział omawia niezawodne strategie pobierania i organizacji danych RNA-seq, koncentrując się na SRA Toolkit, dostępie do ENA, narzędziach transferu z linii poleceń oraz definiowaniu spójnych struktur wejścia i wyjścia wspierających automatyzację i powtarzalność.
Używanie SRA Toolkit prefetch i fasterq-dumpDostęp do ENA przez FTP i AsperaBezpieczne pobieranie z wget i rsyncWybór formatów plików surowych i przetworzonychDokumentowanie metadanych pobierania i sum kontrolnychAutomatyzacja pobierania ze skryptami i logamiLekcja 5Narzędzia kontroli jakości i wyjścia: FastQC, MultiQC, kluczowe metryki do inspekcji (jakość per-base, zawartość adapterów, duplikacja, GC)Ten dział skupia się na kontroli jakości RNA-seq, używając FastQC i MultiQC do podsumowania kluczowych metryk takich jak jakość per-base, kontaminacja adapterami, duplikacja i zawartość GC, oraz do decydowania czy potrzebne jest trymowanie czy ponowne sekwencjonowanie.
Uruchamianie FastQC na odczytach surowych i przycietychInterpretacja profili jakości per-baseWykrywanie adapterów i sekwencji nadreprezentowanychOcena duplikacji i zawartości GCAgregacja raportów z MultiQCDefiniowanie progów QC i działańLekcja 6Trymowanie i filtrowanie odczytów: kiedy trymować, narzędzia (Trim Galore/Cutadapt/fastp), główne parametry i wyjściaTen dział wyjaśnia kiedy i jak trymować odczyty RNA-seq, obejmując trymowanie adapterów i jakości, filtrowanie długości oraz kluczowe parametry w narzędziach takich jak Trim Galore, Cutadapt i fastp, unikając nadmiernego trymowania szkodzącego dalszym analizom.
Decydowanie czy trymowanie jest konieczneStrategie wykrywania i usuwania adapterówProgi trymowania oparte na jakościFiltrowanie minimalnej długości i złożonościOpcje Trim Galore i CutadaptFastp do zintegrowanej QC i trymowaniaLekcja 7Podstawowe analizy downstream: wzbogacenie GO/KEGG (clusterProfiler), GSEA preranked, wizualizacja ścieżek i selekcja zestawów genówTen dział wprowadza downstreamowe analizy funkcjonalne po ekspresji różnicowej, w tym wzbogacenie GO i KEGG z clusterProfiler, GSEA preranked, wizualizację ścieżek oraz zasadnicze strategie selekcji i filtrowania zestawów genów.
Przygotowywanie list genów rangowanych do GSEAWzbogacenie GO i KEGG z clusterProfilerWybór odpowiednich baz danych zestawów genówWizualizacja wzbogaconych ścieżek i sieciFiltrowanie i priorytetyzacja zestawów genówRaportowanie wyników funkcjonalnych powtarzalnieLekcja 8Układ potoku na wysokim poziomie: pobieranie danych, QC, trymowanie, mapowanie/pseudo-mapowanie, kwantyfikacja, ekspresja różnicowa, analiza downstreamTen dział prezentuje ogólną strukturę potoku RNA-seq, od pozyskania danych i QC przez trymowanie, mapowanie lub pseudo-mapowanie, kwantyfikację, normalizację, ekspresję różnicową aż po downstreamową analizę funkcjonalną, podkreślając modułowe, skryptyzowane przepływy pracy.
Definiowanie etapów potoku i zależnościPlanowanie wejść, wyjść i przepływu plikówIntegracja QC, trymowania i mapowaniaŁączenie kwantyfikacji z analizą DEPołączanie DE z przepływami wzbogacaniaDokumentowanie potoku diagramamiLekcja 9Normalizacja i eksploracyjna analiza danych: limity TPM/FPKM, normalizacja DESeq2, PCA, mapy ciepła odległości próbekTen dział omawia normalizację i eksploracyjną analizę danych RNA-seq, dyskutując ograniczenia TPM i FPKM, normalizację DESeq2, stabilizację wariancji, analizę głównych składowych oraz mapy ciepła odległości próbek do wykrywania efektów batch.
Ograniczenia miar TPM i FPKMCzynniki rozmiaru DESeq2 i normalizacjaTransformacje stabilizujące wariancję i rlogAnaliza głównych składowych próbekMapy ciepła odległości próbekWykrywanie efektów batch i outlierówLekcja 10Podstawowe najlepsze praktyki wizualizacji: wykresy MA, volcano plots, mapy ciepła, dotploty ścieżek i opcje raportów interaktywnych (R Markdown, Jupyter)Ten dział wprowadza efektywne strategie wizualizacji wyników RNA-seq, podkreślając klarowną komunikację ekspresji różnicowej, struktury próbek i zmian ścieżek za pomocą statycznych wykresów i interaktywnych, powtarzalnych raportów budowanych w R Markdown lub Jupyter.
Konstruowanie i interpretacja wykresów MAProjektowanie czytelnych volcano plots dla genów DEBudowanie map ciepła jakości publikacyjnejDotploty ścieżek dla wyników wzbogacaniaInteraktywne raporty RNA-seq w R MarkdownWizualizacja eksploracyjna oparta na JupyterLekcja 11Mapowanie vs pseudo-mapowanie: STAR, HISAT2, Salmon, kallisto — kompromisy i wyjścia (BAM, transkrypt/gen liczenia)Ten dział porównuje narzędzia mapujące oparte na mapowaniu takie jak STAR i HISAT2 z narzędziami pseudo-mapującymi jak Salmon i kallisto, podkreślając kompromisy w szybkości, dokładności, zużyciu zasobów oraz wyjściach w tym pliki BAM i liczenia transkryptów lub genów.
Kiedy wybrać mapowniki STAR lub HISAT2Konfigurowanie indeksów genomu i adnotacjiUżywanie Salmon w trybie quasi-mappingUruchamianie kallisto do szybkiej kwantyfikacjiPorównanie wyjść BAM i quant.sfBenchmarking szybkości, pamięci i dokładności