Leçon 1Checks synthétiques et de disponibilité : uptime, santé cronjob, alertes de complétion sauvegardeDécouvrez comment implémenter des checks synthétiques pour uptime, vérification jobs programmés et complétion sauvegarde, concevant des sondes qui simulent les flux utilisateur, valident les dépendances et fournissent des alertes précoces avant impact sur les vrais utilisateurs.
Sondes HTTP uptime et disponibilitéTrajets utilisateur synthétiques multi-étapesHealth-checks cronjob et schedulerValidation succès sauvegarde et RPOPlacement et fréquence des sondesLeçon 2Définition des seuils et règles d'alerte : seuils statiques, alertes basées sur taux, détection d'anomalies et fenêtres de suppressionApprenez à définir les seuils et règles d'alerte via limites statiques, conditions basées sur taux, détection d'anomalies et fenêtres de suppression, équilibrant sensibilité et bruit tout en s'adaptant aux charges changeantes et patterns saisonniers.
Seuils statiques et baselinesAlertes sur taux de changement et dérivéesDétection d'anomalies et outliersFenêtres de maintenance et silenceRéglage des règles pour réduire le bruitLeçon 3Monitoring infrastructure pour hôtes hyperviseurs et santé instances cloud et alertes facturationApprenez à monitorer hyperviseurs, machines virtuelles et instances cloud, incluant santé ressources hôte, performance stockage et réseau, services gérés et alertes facturation ou budget pour prévenir pannes et coûts cloud imprévus.
Health-checks hôtes hyperviseursUtilisation ressources VM et conteneursMétriques santé fournisseurs cloudAlertes facturation, budget et quotaMonitoring services cloud gérésLeçon 4Stratégie d'agrégation logs : syslog central, Windows Event Forwarding, formats logs, considérations parsingComprenez comment centraliser et normaliser les logs via syslog, Windows Event Forwarding et agents, concevoir formats logs, gérer parsing et enrichissement, et planifier rétention, indexation et contrôles d'accès pour dépannage et audits.
Conception syslog central et relaisBases Windows Event ForwardingFormats logs structurés et champsPipelines parsing, grok et JSONRétention, indexation et archivageContrôles d'accès et préoccupations de confidentialitéLeçon 5Plateformes d'alerting et routage : Alertmanager, PagerDuty, OpsGenie, intégrations email et SlackÉtudiez comment les plateformes d'alerting reçoivent les événements, dédupliquent et routent les alertes, et intègrent email, chat et paging comme Alertmanager, PagerDuty et OpsGenie, assurant que les bonnes personnes sont notifiées rapidement et fiablement.
Arbres de routage AlertmanagerBases PagerDuty et OpsGenieConception notifications email et SlackRegroupement et déduplication d'alertesLivraison multi-canal et fallbacksLeçon 6Métriques clés à monitorer : CPU, mémoire, disque, I/O, réseau, swap, charge moyenne, utilisation inodesApprenez quelles métriques hôte comptent le plus, comment interpréter CPU, mémoire, disque, I/O, réseau, swap, charge et indicateurs inodes, et comment définir des intervalles de collecte et baselines sains pour détecter les problèmes de performance tôt.
Utilisation et saturation CPUPression mémoire et swappingCapacité disque et latence I/ODébit réseau et erreursCharge moyenne et queues d'exécutionRisques d'épuisement inodesLeçon 7Politiques d'escalade, runbooks, déduplication alertes et meilleures pratiques planification astreinteExaminez comment concevoir des politiques d'escalade, construire des runbooks actionnables, configurer la déduplication d'alertes et gérer les rotations astreinte afin que les incidents soient gérés efficacement tout en minimisant la fatigue d'alerte et protégeant le bien-être de l'équipe.
Définition des chemins et niveaux d'escaladeRédaction de runbooks clairs et actionnablesDéduplication et contrôle bruit d'alertesRotation astreinte et règles de passationRevues post-incident et apprentissagesLeçon 8Outils de monitoring : Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – rationales de sélection et compromisComparez les stacks de monitoring majeurs comme Prometheus, Grafana, Zabbix, Nagios et Datadog, comprenant exporters, agents, scalabilité, coût, écosystème et comment choisir des outils adaptés aux compétences et contraintes de votre organisation.
Utilisation Prometheus et node_exporterTableaux de bord et alerting GrafanaForces et limites Zabbix et NagiosFonctionnalités Datadog et impact pricingCritères d'évaluation et choix d'outilLeçon 9Monitoring applicatif : temps de réponse, taux d'erreur, codes statut HTTP, métriques applicatives customExplorez les techniques pour monitorer le comportement applicatif, incluant latence, taux d'erreur, codes statut HTTP et métriques custom, et apprenez à instrumenter le code, définir des SLI et corréler métriques app avec données infrastructure.
Latence requête et percentilesTaux d'erreur et patterns de panneSuivi des classes de codes statut HTTPMétriques métier et domaine customBibliothèques et SDK d'instrumentationLeçon 10Monitoring niveau service : checks processus/service, endpoints HTTP(S), santé base de données, latence AD/KerberosFocus sur le monitoring de disponibilité service via checks processus, sondes HTTP(S), tests santé base de données et services identité comme AD et Kerberos, corrélant ces checks avec fiabilité utilisateur-facing et SLA.
Supervision processus et serviceSondes endpoints HTTP(S)Connectivité et latence base de donnéesHealth-checks AD et KerberosMappage checks vers SLA et SLO