Leçon 1Contrôles synthétiques et disponibilité : uptime, santé cronjob, alertes complétion backupDécouvrez comment implémenter contrôles synthétiques pour uptime, vérification jobs programmés et complétion backups, concevant sondes simulant flux utilisateurs, validant dépendances et avertissant tôt avant impact utilisateurs réels.
Sondes HTTP uptime et disponibilitéTrajets utilisateurs synthétiques multi-étapesContrôles santé cronjob et planificateursValidation succès backup et RPOPlacement et fréquence sondesLeçon 2Définition seuils et règles alerte : seuils statiques, alertes basées taux, détection anomalie, fenêtres suppressionApprenez à définir seuils alerte et règles via limites statiques, conditions taux, détection anomalie et fenêtres suppression, équilibrant sensibilité et bruit tout adaptant à charges changeantes et patterns saisonniers.
Seuils statiques et baselinesAlertes taux changement et dérivéesDétection anomalie et outliersFenêtres maintenance et silenceRéglage règles réduction bruitLeçon 3Monitoring infrastructure pour hôtes hyperviseur et santé instances cloud et alertes facturationApprenez à monitorer hyperviseurs, machines virtuelles et instances cloud, incluant santé ressources hôte, performance stockage et réseau, services gérés et alertes facturation ou budget pour prévenir pannes et coûts cloud imprévus.
Contrôles santé hôtes hyperviseurUtilisation ressources VM et conteneursMétriques santé fournisseurs cloudAlertes facturation, budget et quotasMonitoring services cloud gérésLeçon 4Stratégie agrégation logs : syslog central, Windows Event Forwarding, formats logs, considérations parsingComprenez comment centraliser et normaliser logs via syslog, Windows Event Forwarding et agents, concevoir formats logs, gérer parsing et enrichissement, et planifier rétention, indexation et contrôles accès pour dépannage et audits.
Conception syslog central et relaisBases Windows Event ForwardingFormats logs structurés et champsPipelines parsing, grok et JSONRétention, indexation et archivageContrôle accès et préoccupations confidentialitéLeçon 5Plateformes alerte et routage : Alertmanager, PagerDuty, OpsGenie, intégrations email et SlackÉtudiez comment plateformes alerte reçoivent événements, dédupliquent et routent alertes, et intègrent email, chat et paging comme Alertmanager, PagerDuty et OpsGenie, assurant bonnes personnes notifiées rapidement et fiablement.
Arbres routage AlertmanagerBases PagerDuty et OpsGenieConception notifications email et SlackGroupement et déduplication alertesLivraison multi-canaux et fallbacksLeçon 6Métriques clés à monitorer : CPU, mémoire, disque, E/S, réseau, swap, charge moyenne, utilisation inodesApprenez quelles métriques hôte comptent le plus, comment interpréter CPU, mémoire, disque, E/S, réseau, swap, charge et inodes, et régler intervalles collecte et baselines sains pour détecter problèmes performance tôt.
Utilisation et saturation CPUPression mémoire et swappingCapacité disque et latence E/SDébit réseau et erreursCharge moyenne et files attenteRisques épuisement inodesLeçon 7Politiques escalade, runbooks, déduplication alerte, meilleures pratiques planification astreinteExaminez comment concevoir politiques escalade, construire runbooks actionnables, configurer déduplication alerte et gérer rotations astreinte pour incidents gérés efficacement tout minimisant fatigue alerte et protégeant bien-être équipe.
Définition chemins escalade et niveauxRédaction runbooks clairs actionnablesDéduplication alerte et contrôle bruitRotation astreinte et règles passationRevues post-incident et apprentissagesLeçon 8Outils monitoring : Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – justification sélection et compromisComparez stacks monitoring majeurs comme Prometheus, Grafana, Zabbix, Nagios et Datadog, comprenant exporters, agents, scalabilité, coût, écosystème et comment choisir outils adaptés compétences et contraintes organisation.
Utilisation Prometheus et node_exporterTableaux de bord et alerte GrafanaForces et limites Zabbix et NagiosFonctionnalités et impact pricing DatadogCritères évaluation et choix outilLeçon 9Monitoring niveau application : temps réponse, taux erreur, codes statut HTTP, métriques application customExplorez techniques monitoring comportement application, incluant latence, taux erreur, codes statut HTTP et métriques custom, et apprenez à instrumenter code, définir SLI et corréler métriques app avec données infrastructure.
Latence requête et percentilesTaux erreur et patterns défaillanceSuivi classes codes statut HTTPMétriques métier et domaine customBibliothèques et SDKs instrumentationLeçon 10Monitoring niveau service : contrôles processus/service, endpoints HTTP(S), santé base données, latence AD/KerberosFocalisez sur monitoring disponibilité services via contrôles processus, sondes HTTP(S), tests santé base données et services identité comme AD et Kerberos, corrélant ces contrôles avec fiabilité utilisateur-facing et SLA.
Supervision processus et servicesSondes endpoints HTTP(S)Connectivité et latence base donnéesContrôles santé AD et KerberosMapping contrôles vers SLA et SLO