Leçon 1Vérifications synthétiques et de disponibilité : disponibilité, santé des tâches cron, alertes de complétion de sauvegardeDécouvrez comment implémenter des vérifications synthétiques pour la disponibilité, vérification des tâches planifiées et complétion de sauvegarde, concevant des sondes qui simulent les flux utilisateur, valident les dépendances et fournissent un avertissement précoce avant que les utilisateurs réels ne soient impactés.
Sondes de disponibilité et HTTPParcours utilisateur synthétiques multi-étapesVérifications de santé des tâches cron et planificateursValidation de succès de sauvegarde et RPOPlacement et fréquence des sondesLeçon 2Définition des seuils et règles d'alerte : seuils statiques, alertes basées sur taux, détection d'anomalies et fenêtres de suppressionApprenez à définir les seuils et règles d'alerte en utilisant des limites statiques, conditions basées sur taux, détection d'anomalies et fenêtres de suppression, équilibrant sensibilité et bruit tout en s'adaptant aux charges de travail changeantes et patterns saisonniers.
Seuils statiques et lignes de baseAlertes de taux de changement et dérivéesDétection d'anomalies et de valeurs aberrantesFenêtres de maintenance et de silenceRéglage des règles pour réduire le bruitLeçon 3Surveillance infrastructure pour hôtes hyperviseur et santé des instances nuage et alertes de facturationApprenez à surveiller les hyperviseurs, machines virtuelles et instances nuage, incluant la santé des ressources hôte, performance de stockage et réseau, services gérés et alertes de facturation ou budget pour prévenir les pannes et coûts nuage inattendus.
Vérifications de santé des hôtes hyperviseurUtilisation des ressources VM et conteneursMétriques de santé des fournisseurs nuageAlertes de facturation, budget et quotaSurveillance des services nuage gérésLeçon 4Stratégie d'agrégation de journaux : syslog central, transfert d'événements Windows, formats de journaux, considérations de parsingComprenez comment centraliser et normaliser les journaux en utilisant syslog, transfert d'événements Windows et agents, concevoir des formats de journaux, gérer le parsing et l'enrichissement, et planifier la rétention, indexation et contrôles d'accès pour dépannage et audits.
Conception de syslog central et relaisBases du transfert d'événements WindowsFormats de journaux structurés et champsPipelines de parsing, grok et JSONRétention, indexation et archivageContrôle d'accès et préoccupations de confidentialitéLeçon 5Plateformes d'alerte et routage : Alertmanager, PagerDuty, OpsGenie, intégrations email et SlackÉtudiez comment les plateformes d'alerte reçoivent les événements, dédupliquent et routent les alertes, et s'intègrent avec email, chat et outils de pagination tels qu'Alertmanager, PagerDuty et OpsGenie, assurant que les bonnes personnes sont notifiées rapidement et de manière fiable.
Arbres de routage AlertmanagerBases de PagerDuty et OpsGenieConception de notifications email et SlackRegroupement et déduplication d'alertesLivraison multi-canal et solutions de secoursLeçon 6Métriques clés à surveiller : CPU, mémoire, disque, E/S, réseau, swap, charge moyenne, utilisation d'inodesApprenez quelles métriques hôte comptent le plus, comment interpréter les indicateurs CPU, mémoire, disque, E/S, réseau, swap, charge et inodes, et comment définir des intervalles de collecte sains et lignes de base pour détecter les problèmes de performance tôt.
Utilisation et saturation CPUPression mémoire et swappingCapacité disque et latence E/SDébit réseau et erreursCharge moyenne et files d'attente d'exécutionRisques d'épuisement d'inodesLeçon 7Politiques d'escalade, runbooks, déduplication d'alertes et meilleures pratiques de planification de gardeExaminez comment concevoir des politiques d'escalade, construire des runbooks actionnables, configurer la déduplication d'alertes et gérer les rotations de garde afin que les incidents soient gérés efficacement tout en minimisant la fatigue d'alerte et protégeant le bien-être de l'équipe.
Définition des chemins et niveaux d'escaladeRédaction de runbooks clairs et actionnablesDéduplication d'alertes et contrôle du bruitRotation de garde et règles de passationRevues post-incident et apprentissageLeçon 8Outils de surveillance : Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – justification de sélection et compromisComparez les principales piles de surveillance telles que Prometheus, Grafana, Zabbix, Nagios et Datadog, comprenant les exportateurs, agents, évolutivité, coût, écosystème et comment choisir des outils qui correspondent aux compétences et contraintes de votre organisation.
Utilisation de Prometheus et node_exporterTableaux de bord et alerte GrafanaForces et limites de Zabbix et NagiosFonctionnalités Datadog et impact sur les prixCritères d'évaluation et choix d'outilsLeçon 9Surveillance au niveau application : temps de réponse, taux d'erreur, codes de statut HTTP, métriques d'application personnaliséesExplorez les techniques pour surveiller le comportement des applications, incluant latence, taux d'erreur, codes de statut HTTP et métriques personnalisées, et apprenez à instrumenter le code, définir des SLI et corréler les métriques d'app avec les données d'infrastructure.
Latence de requête et percentilesTaux d'erreur et patterns de défaillanceSuivi des classes de codes de statut HTTPMétriques métier et domaine personnaliséesBibliothèques et SDK d'instrumentationLeçon 10Surveillance au niveau service : vérifications processus/service, extrémités HTTP(S), santé base de données, latence AD/KerberosSe concentre sur la surveillance de la disponibilité des services via vérifications processus, sondes HTTP(S), tests de santé base de données et services d'identité tels qu'AD et Kerberos, corrélant ces vérifications avec la fiabilité orientée utilisateur et les SLA.
Supervision de processus et serviceSondes d'extrémité HTTP(S)Connectivité et latence base de donnéesVérifications de santé AD et KerberosMappage des vérifications aux SLA et SLO