Leçon 1Analyse de la mémoire : free -m, /proc/meminfo, slabtop, smem—interprétation de la mémoire utilisée vs disponible et comportement du swapIci, vous analyserez le comportement de la mémoire avec free, /proc/meminfo, slabtop et smem. La section explique le cache Linux, les tampons et la récupération, comment interpréter l'utilisation du swap, et comment détecter les fuites mémoire, la fragmentation et les limites mal configurées.
Lecture de free -m et compréhension de la mémoire mise en cacheChamps clés dans /proc/meminfo pour le diagnosticUtilisation de slabtop pour inspecter l'utilisation des slabs du noyauUtilisation de smem pour attribuer la mémoire par processusReconnaissance du thrashing du swap et des risques OOMLeçon 2Utilisation réseau et goulots d'étranglement : iftop, nload, ss, netstat, ip -s link, tc, tcpdump—identification de la saturation réseau et connexions problématiquesCette section couvre le diagnostic de l'utilisation réseau et des goulots d'étranglement avec iftop, nload, ss, ip, tc et tcpdump. Vous apprendrez à identifier la saturation, les voisins bruyants, les états de connexion et les problèmes au niveau paquet qui contribuent à des applications lentes.
Surveillance de la bande passante en direct avec iftop et nloadInspection des sockets et états avec ssUtilisation de ip -s link pour voir les erreurs d'interfaceBases de tc pour le façonnage et la limitation de débitCapture ciblée de paquets avec tcpdumpLeçon 3Latence de stockage et E/S approfondies : blktrace, bpftrace (scripts basiques), fio pour tests—comment mesurer et interpréter latence et débitCette section couvre la latence de stockage et l'analyse E/S approfondie avec blktrace, scripts bpftrace basiques et benchmarks fio. Vous apprendrez à mesurer latence et débit, interpréter la profondeur de file d'attente et distinguer les limites des dispositifs des problèmes de charge de travail.
Compréhension de la latence, IOPS et débitUtilisation de blktrace pour inspecter les patterns E/S blocsScripts bpftrace introductifs pour latence disqueConception de charges fio mimant la productionLecture des rapports fio et repérage des goulotsLeçon 4Investigation des processus : ps, filtres top/htop, pgrep, pidstat, nice/renice—comment trouver les processus gourmands en CPU et mémoireVous apprendrez à investiguer les processus avec ps, filtres top ou htop, pgrep, pidstat et nice ou renice. La section montre comment identifier les tâches lourdes en CPU et mémoire, suivre les E/S par processus et ajuster les priorités pour réduire les contentions.
Listage et filtrage des processus avec psUtilisation de pgrep et pkill de manière sûre et préciseUtilisation de pidstat pour CPU et E/S par processusFiltrage de top et htop par utilisateur ou ressourceAjustement des priorités avec nice et reniceLeçon 5Vue d'ensemble des ressources système : top, htop, vmstat, mpstat, dstat—ce que chacun montre et patterns de sortie attendusIci, vous apprendrez à lire les instantanés des ressources système avec des outils comme top, htop, vmstat, mpstat et dstat. La section se concentre sur la compréhension des métriques CPU, mémoire et charge, et la reconnaissance des patterns normaux versus pathologiques.
Champs clés CPU, charge et mémoire dans topUtilisation de htop pour analyse interactive des processusvmstat pour file d'exécution, swap et insight E/Smpstat pour utilisation par CPU et temps volédstat pour timelines multi-ressources combinéesLeçon 6E/S disque et vérifications système de fichiers : iostat, iotop, sar -d, lsblk, df -h, du -sh, tune2fs, xfs_info—détection des goulots E/S et faible espaceCette section se concentre sur les E/S disque et la santé des systèmes de fichiers avec iostat, iotop, sar -d, lsblk, df, du, tune2fs et xfs_info. Vous apprendrez à détecter la saturation, l'accumulation de files d'attente, les erreurs système de fichiers et les conditions de faible espace qui dégradent les performances.
Utilisation de iostat pour repérer les dispositifs occupés et lentsUtilisation de iotop pour trouver les processus E/S lourdssar -d pour tendances historiques d'utilisation disqueVérification de la disposition et types avec lsblk et dfTrouver les consommateurs d'espace avec du et vérifications inodesLeçon 7Journaux système et journalisation : journalctl (systemd), /var/log/messages, /var/log/syslog, journaux d'authentification—ce qu'il faut chercher et pourquoiCette section explique comment utiliser journalctl systemd et les fichiers journaux classiques comme /var/log/messages, /var/log/syslog et journaux d'authentification. Vous apprendrez quels patterns chercher, comment filtrer le bruit et comment les journaux soutiennent l'analyse des causes racines.
Bases de journalctl et options de filtrage utilesLecture de /var/log/messages et /var/log/syslogTrouver erreurs, avertissements et événements limités en tauxAnalyse des journaux d'authentification et sudoCorrélation des horodatages des journaux avec les incidentsLeçon 8Surveillance basée sur le temps et historique : sar, sysstat, collectl—collecte et lecture de métriques historiques pour corréler les événementsVous apprendrez à collecter et interpréter les métriques historiques avec sar, sysstat et collectl. La section explique comment planifier la collecte de données, lire les rapports en séries temporelles et corréler les anomalies de performance avec les changements de configuration ou déploiements.
Activation et configuration de la collecte sysstatUtilisation de sar pour historique CPU, mémoire et E/SLecture des tendances sar réseau et moyenne de chargeUtilisation de collectl pour timelines multi-ressourcesCorrélation des métriques avec fenêtres de changementLeçon 9Insights noyau et ordonnanceur : dmesg, sysctl -a, paramètres /proc/sys/vm—ce que révèlent les messages noyau et tunablesIci, vous explorerez les insights noyau et ordonnanceur avec dmesg, sysctl et paramètres /proc/sys/vm. La section explique comment les messages noyau, tunables et comportement de l'ordonnanceur révèlent les problèmes matériels, mauvaises configurations et options de tuning.
Lecture de dmesg pour problèmes matériels et pilotesListage et interrogation des valeurs tunables sysctlParamètres clés /proc/sys/vm pour mémoireAperçu des paramètres noyau liés à l'ordonnanceurPersistance sûre des changements de tuning noyauLeçon 10Approche de détermination de la cause racine : arbre de décision étape par étape pour classer les problèmes comme CPU, RAM, E/S disque ou réseauCette section présente un arbre de décision pratique pour l'analyse des causes racines. Vous apprendrez à classer les incidents comme liés à CPU, mémoire, E/S disque ou réseau, quels outils lancer dans chaque branche et comment raffiner itérativement les hypothèses avec les preuves collectées.
Triage initial et énoncé du problèmeClassification des symptômes liés CPU vs E/SDistinction de la pression mémoire des fuitesIdentification des goulots réseau vs locauxTest itératif d'hypothèses avec métriques