Leçon 1Analyse de la mémoire : free -m, /proc/meminfo, slabtop, smem—interprétation de la mémoire utilisée vs disponible et comportement du swapIci, vous analyserez le comportement de la mémoire à l'aide de free, /proc/meminfo, slabtop et smem. La section explique le cache Linux, les tampons et la récupération, comment interpréter l'utilisation du swap, et comment détecter les fuites mémoire, la fragmentation et les limites mal configurées.
Lecture de free -m et compréhension de la mémoire mise en cacheChamps clés dans /proc/meminfo pour le diagnosticUtilisation de slabtop pour inspecter l'utilisation du slab du noyauUtilisation de smem pour attribuer la mémoire par processusReconnaissance du thrashing du swap et des risques OOMLeçon 2Utilisation réseau et goulots d'étranglement : iftop, nload, ss, netstat, ip -s link, tc, tcpdump—identification de la saturation réseau et des connexions problématiquesCette section couvre le diagnostic de l'utilisation réseau et des goulots d'étranglement à l'aide d'iftop, nload, ss, ip, tc et tcpdump. Vous apprendrez à identifier la saturation, les voisins bruyants, les états de connexion et les problèmes au niveau des paquets qui contribuent à des applications lentes.
Surveillance de la bande passante en direct avec iftop et nloadInspection des sockets et états avec ssUtilisation de ip -s link pour voir les erreurs d'interfaceBases de tc pour le façonnage et la limitation de débitCapture ciblée de paquets avec tcpdumpLeçon 3Latence de stockage et E/S approfondies : blktrace, bpftrace (scripts de base), fio pour les tests—comment mesurer et interpréter la latence et le débitCette section couvre la latence de stockage et l'analyse E/S approfondie à l'aide de blktrace, scripts bpftrace de base et benchmarks fio. Vous apprendrez à mesurer la latence et le débit, interpréter la profondeur de file d'attente et distinguer les limites des appareils des problèmes de charge de travail.
Compréhension de la latence, IOPS et débitUtilisation de blktrace pour inspecter les motifs E/S blocScripts bpftrace introductifs pour la latence disqueConception de charges de travail fio imitant la productionLecture des rapports fio et repérage des goulots d'étranglementLeçon 4Investigation des processus : ps, filtres top/htop, pgrep, pidstat, nice/renice—comment trouver les processus gourmands en CPU et mémoireVous apprendrez à investiguer les processus avec ps, filtres top ou htop, pgrep, pidstat et nice ou renice. La section montre comment identifier les tâches gourmandes en CPU et mémoire, suivre les E/S par processus et ajuster les priorités pour réduire la contention.
Listage et filtrage des processus avec psUtilisation de pgrep et pkill de manière sûre et préciseUtilisation de pidstat pour le CPU et les E/S par processusFiltrage de top et htop par utilisateur ou ressourceAjustement des priorités avec nice et reniceLeçon 5Vue d'ensemble des ressources système : top, htop, vmstat, mpstat, dstat—ce que chacun montre et motifs de sortie attendusIci, vous apprendrez à lire les instantanés des ressources système à l'aide d'outils comme top, htop, vmstat, mpstat et dstat. La section se concentre sur la compréhension des métriques CPU, mémoire et charge, et la reconnaissance des motifs d'utilisation normaux versus pathologiques.
Champs clés CPU, charge et mémoire dans topUtilisation de htop pour l'analyse interactive des processusvmstat pour la file d'exécution, le swap et les insights E/Smpstat pour l'utilisation par CPU et le temps volédstat pour les chronologies multi-ressources combinéesLeçon 6E/S disque et vérifications système de fichiers : iostat, iotop, sar -d, lsblk, df -h, du -sh, tune2fs, xfs_info—détection des goulots d'étranglement E/S et faible espaceCette section se concentre sur les E/S disque et la santé des systèmes de fichiers à l'aide d'iostat, iotop, sar -d, lsblk, df, du, tune2fs et xfs_info. Vous apprendrez à détecter la saturation, l'accumulation de files d'attente, les erreurs de système de fichiers et les conditions de faible espace qui dégradent les performances.
Utilisation d'iostat pour repérer les appareils occupés et lentsUtilisation d'iotop pour trouver les processus gourmands en E/Ssar -d pour les tendances historiques d'utilisation disqueVérification de la disposition et des types avec lsblk et dfTrouver les consommateurs d'espace avec du et vérifications d'inodesLeçon 7Journaux système et journalisation : journalctl (systemd), /var/log/messages, /var/log/syslog, journaux d'authentification—ce qu'il faut rechercher et pourquoiCette section explique comment utiliser journalctl systemd et les fichiers de journaux classiques comme /var/log/messages, /var/log/syslog et les journaux d'authentification. Vous apprendrez quels motifs rechercher, comment filtrer le bruit et comment les journaux soutiennent l'analyse des causes racines.
Bases de journalctl et options de filtrage utilesLecture de /var/log/messages et /var/log/syslogTrouver les erreurs, avertissements et événements limités en tauxAnalyse des journaux d'authentification et sudoCorrélation des horodatages des journaux avec les incidentsLeçon 8Surveillance basée sur le temps et historique : sar, sysstat, collectl—collecte et lecture de métriques historiques pour corréler les événementsVous apprendrez à collecter et interpréter les métriques historiques à l'aide de sar, sysstat et collectl. La section explique comment planifier la collecte de données, lire les rapports de séries temporelles et corréler les anomalies de performance avec les changements de configuration ou les déploiements.
Activation et configuration de la collecte sysstatUtilisation de sar pour l'historique CPU, mémoire et E/SLecture des tendances sar réseau et moyenne de chargeUtilisation de collectl pour les chronologies multi-ressourcesCorrélation des métriques avec les fenêtres de changementLeçon 9Insights noyau et ordonnanceur : dmesg, sysctl -a, paramètres /proc/sys/vm—ce que révèlent les messages noyau et les réglagesIci, vous explorerez les insights noyau et ordonnanceur à l'aide de dmesg, sysctl et paramètres /proc/sys/vm. La section explique comment les messages noyau, les réglages et le comportement de l'ordonnanceur révèlent les problèmes matériels, les mauvaises configurations et les options de réglage.
Lecture de dmesg pour les problèmes matériels et pilotesListage et interrogation des valeurs sysctl réglablesParamètres clés /proc/sys/vm pour la mémoireAperçu des paramètres noyau liés à l'ordonnanceurPersistance sûre des changements de réglage noyauLeçon 10Approche pour la détermination de la cause racine : arbre de décision étape par étape pour classer les problèmes comme CPU, RAM, E/S disque ou réseauCette section présente un arbre de décision pratique pour l'analyse des causes racines. Vous apprendrez à classer les incidents comme limités par CPU, mémoire, E/S disque ou réseau, quels outils exécuter dans chaque branche et comment raffiner itérativement les hypothèses à l'aide des preuves collectées.
Triage initial et énoncé du problèmeClassification des symptômes limités par CPU vs E/SDistinction de la pression mémoire des fuitesIdentification des goulots d'étranglement réseau vs locauxTest itératif d'hypothèses avec métriques