Lektion 1Speicheranalyse: free -m, /proc/meminfo, slabtop, smem – Interpretation von genutztem vs verfügbarem Speicher und Swap-VerhaltenHier analysieren Sie das Speicherverhalten mit free, /proc/meminfo, slabtop und smem. Der Abschnitt erklärt Linux-Caching, Puffer und Reclaim, wie man Swap-Nutzung interpretiert und Speicherlecks, Fragmentierung sowie fehlerhafte Limits erkennt.
Reading free -m and understanding cached memoryKey fields in /proc/meminfo for diagnosisUsing slabtop to inspect kernel slab usageUsing smem to attribute memory per processRecognizing swap thrashing and OOM risksLektion 2Netzwerk-Nutzung und Engpässe: iftop, nload, ss, netstat, ip -s link, tc, tcpdump – Identifizierung von Netzwerksättigung und problematischen VerbindungenDieser Abschnitt behandelt die Diagnose von Netzwerk-Nutzung und Engpässen mit iftop, nload, ss, ip, tc und tcpdump. Sie lernen, Sättigung, laute Nachbarn, Verbindungsstatus und Paketprobleme zu identifizieren, die zu langsamen Anwendungen führen.
Monitoring live bandwidth with iftop and nloadInspecting sockets and states with ssUsing ip -s link to view interface errorsBasics of tc for shaping and rate limitingTargeted packet capture with tcpdumpLektion 3Speicherlatenz und tiefgehendes I/O: blktrace, bpftrace (einfache Skripte), fio für Tests – Messung und Interpretation von Latenz und DurchsatzDieser Abschnitt behandelt Speicherlatenz und tiefgehende I/O-Analyse mit blktrace, einfachen bpftrace-Skripten und fio-Benchmarks. Sie lernen, Latenz und Durchsatz zu messen, Warteschlangentiefe zu interpretieren und Gerätelimits von Workload-Problemen zu unterscheiden.
Understanding latency, IOPS, and throughputUsing blktrace to inspect block I/O patternsIntroductory bpftrace scripts for disk latencyDesigning fio workloads that mimic productionReading fio reports and spotting bottlenecksLektion 4Prozessuntersuchung: ps, top/htop-Filter, pgrep, pidstat, nice/renice – Finden von CPU- und speicherintensiven ProzessenSie lernen, Prozesse mit ps, top- oder htop-Filtern, pgrep, pidstat und nice/renice zu untersuchen. Der Abschnitt zeigt, wie man CPU- und speicherintensive Aufgaben identifiziert, I/O pro Prozess verfolgt und Prioritäten anpasst, um Konflikte zu reduzieren.
Listing and filtering processes with psUsing pgrep and pkill safely and preciselyUsing pidstat for per process CPU and I/OFiltering top and htop by user or resourceAdjusting priorities with nice and reniceLektion 5Systemressourcen-Übersicht: top, htop, vmstat, mpstat, dstat – Was jedes zeigt und erwartete AusgabemusterHier lernen Sie, systemweite Ressourcen-Schnappschüsse mit Tools wie top, htop, vmstat, mpstat und dstat zu lesen. Der Abschnitt konzentriert sich auf das Verständnis von CPU-, Speicher- und Lastmetriken sowie das Erkennen normaler vs pathologischer Nutzungsmuster.
Key CPU, load, and memory fields in topUsing htop for interactive process analysisvmstat for run queue, swap, and I/O insightmpstat for per-CPU utilization and steal timedstat for combined multi-resource timelinesLektion 6Festplatten-I/O und Dateisystemprüfungen: iostat, iotop, sar -d, lsblk, df -h, du -sh, tune2fs, xfs_info – Erkennen von I/O-Engpässen und niedrigem SpeicherplatzDieser Abschnitt konzentriert sich auf Festplatten-I/O und Dateisystemgesundheit mit iostat, iotop, sar -d, lsblk, df, du, tune2fs und xfs_info. Sie lernen, Sättigung, Warteschlangenaufbau, Dateisystemfehler und niedrigen Speicherplatz zu erkennen, die die Leistung verschlechtern.
Using iostat to spot busy and slow devicesUsing iotop to find I/O heavy processessar -d for historical disk utilization trendsChecking layout and types with lsblk and dfFinding space hogs with du and inode checksLektion 7Systemlogs und Journaling: journalctl (systemd), /var/log/messages, /var/log/syslog, Auth-Logs – Was zu suchen ist und warumDieser Abschnitt erklärt die Verwendung von systemd journalctl und klassischen Logdateien wie /var/log/messages, /var/log/syslog und Authentifizierungslogs. Sie lernen, nach welchen Mustern zu suchen ist, wie man Rauschen filtert und wie Logs die Ursachenanalyse unterstützen.
journalctl basics and useful filtering optionsReading /var/log/messages and /var/log/syslogFinding errors, warnings, and rate-limited eventsAnalyzing authentication and sudo related logsCorrelating log timestamps with incidentsLektion 8Zeitbasierte und historische Überwachung: sar, sysstat, collectl – Sammeln und Lesen historischer Metriken zur Korrelation von EreignissenSie lernen, historische Metriken mit sar, sysstat und collectl zu sammeln und zu interpretieren. Der Abschnitt erklärt, wie man Datensammlung plant, Zeitreihenberichte liest und Leistungsanomalien mit Konfigurationsänderungen oder Deployments korreliert.
Enabling and configuring sysstat collectionUsing sar for CPU, memory, and I/O historyReading sar network and load average trendsUsing collectl for multi-resource timelinesCorrelating metrics with change windowsLektion 9Kernel- und Scheduler-Einblicke: dmesg, sysctl -a, /proc/sys/vm-Parameter – Was Kernel-Nachrichten und Tunables enthüllenHier erkunden Sie Kernel- und Scheduler-Einblicke mit dmesg, sysctl und /proc/sys/vm-Parametern. Der Abschnitt erklärt, wie Kernel-Nachrichten, Tunables und Scheduler-Verhalten Hardwareprobleme, Fehlkonfigurationen und Tuning-Optionen offenbaren.
Reading dmesg for hardware and driver issuesListing and querying sysctl tunable valuesKey /proc/sys/vm parameters for memoryScheduler related kernel parameters overviewSafely persisting kernel tuning changesLektion 10Ansatz zur Ursachenbestimmung: schrittweiser Entscheidungsbaum zur Klassifizierung als CPU, RAM, Festplatten-I/O oder NetzwerkDieser Abschnitt stellt einen praktischen Entscheidungsbaum für die Ursachenanalyse vor. Sie lernen, Vorfälle als CPU-, Speicher-, Festplatten-I/O- oder Netzwerk-gebunden zu klassifizieren, welche Tools in jedem Zweig zu verwenden sind und wie man Hypothesen iterativ mit gesammelten Beweisen verfeinert.
Initial triage and problem statementClassifying CPU versus I/O bound symptomsDistinguishing memory pressure from leaksIdentifying network versus local bottlenecksIterative hypothesis testing with metrics