Lektion 1Syntetiska och tillgänglighetskontroller: drifttid, cronjob-hälsa, säkerhetskopieringsfärdigvarningarUpptäck hur man implementerar syntetiska kontroller för drifttid, schemalagd jobbverifiering och säkerhetskopieringsfärdighet, designar prover som simulerar användarflöden, validerar beroenden och ger tidig varning innan riktiga användare påverkas.
HTTP-drifttid och tillgänglighetsproverFlerstegs syntetiska användarresorCronjob- och schemaläggarhälsokontrollerSäkerhetskopieringsframgång och RPO-valideringPlacering och frekvens av proverLektion 2Definiering av trösklar och varningsregler: statiska trösklar, ratbaserade varningar, anomalidetektering och undertryckningsfönsterLär dig definiera varningströsklar och regler med statiska gränser, ratbaserade villkor, anomalidetektering och undertryckningsfönster, balanserar känslighet och brus samtidigt som du anpassar till ändrande arbetsbelastningar och säsongsbetonade mönster.
Statiska trösklar och baslinjerÄndringshastighet och derivativa varningarAnomali- och utsvämsdetekteringUnderhålls- och tystnadsfönsterJustering av regler för att minska brusLektion 3Infrastrukturövervakning för hypervisorvärdar och molninstanshälsa samt faktureringsvarningarLär dig övervaka hypervisorer, virtuella maskiner och molninstanser, inklusive värdresurshälsa, lagring och nätverksprestanda, hanterade tjänster och fakturerings- eller budgetvarningar för att förhindra avbrott och oväntade molnkostnader.
HypervisorvärdhälsokontrollerVM- och containerresursanvändningMolnleverantörshälsomätvärdenFakturering, budget och kvotvarningarÖvervakning av hanterade molntjänsterLektion 4Loggaggregeringsstrategi: central syslog, Windows Event Forwarding, loggformat, parsningsovervägandenFörstå hur man centraliserar och normaliserar loggar med syslog, Windows Event Forwarding och agenter, designar loggformat, hanterar parsning och berikning, och planerar bevarande, indexering och åtkomstkontroller för felsökning och granskningar.
Central syslog- och relädesignWindows Event Forwarding-grunderStrukturerade loggformat och fältParsning, grok och JSON-pipelinesBevarande, indexering och arkiveringÅtkomstkontroll och integritetsfrågorLektion 5Varningsplattformar och routning: Alertmanager, PagerDuty, OpsGenie, e-post och Slack-integrationerStudera hur varningsplattformar tar emot händelser, deduplicerar och routerar varningar, och integrerar med e-post, chatt och pagingverktyg som Alertmanager, PagerDuty och OpsGenie, säkerställer att rätt personer notifieras snabbt och pålitligt.
Alertmanager-routningsträdPagerDuty- och OpsGenie-grunderE-post- och Slack-notifikationsdesignVarningsgruppering och dedupliceringMultikanal-leverans och reservmetoderLektion 6Nyckelmätvärden att övervaka: CPU, minne, disk, I/O, nätverk, swap, load average, inode-användningLär dig vilka värdmätvärden som är viktigast, hur man tolkar CPU, minne, disk, I/O, nätverk, swap, load och inode-indikatorer, och hur man ställer in sunda insamlingsintervall och baslinjer för att upptäcka prestandaproblem tidigt.
CPU-utnyttjande och mättnadMinnestryck och swappingDiskkapacitet och I/O-latensNätverk genomband och felLoad average och köerInode-utmattningsriskerLektion 7Eskaleringspolicyer, runbooks, varningsdeduplicering och bästa praxis för jourplaneringUndersök hur man designar eskaleringspolicyer, bygger handlingsbara runbooks, konfigurerar varningsdeduplicering och hanterar jourrotationer så att incidenter hanteras effektivt samtidigt som varningsutmattning minimeras och teamets välmående skyddas.
Definiering av eskaleringspaths och nivåerSkrivande av tydliga, handlingsbara runbooksVarningsdeduplicering och brusKontrollJourrotation och överlämningsreglerPost-incident-granskningar och lärandeLektion 8Övervakningsverktyg: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – valrational och avvägningarJämför stora övervakningsstackar som Prometheus, Grafana, Zabbix, Nagios och Datadog, förstå exporters, agenter, skalbarhet, kostnad, ekosystem och hur man väljer verktyg som passar organisationens färdigheter och begränsningar.
Prometheus och node_exporter-användningGrafana-dashboards och varningZabbix- och Nagios-styrkor och begränsningarDatadog-funktioner och prispåverkanKriterier för verktygsevaluering och valLektion 9Applikationsnivåövervakning: svarsider, felrater, HTTP-statuskoder, anpassade applikationsmätvärdenUtforska tekniker för övervakning av applikationsbeteende, inklusive latens, felrater, HTTP-statuskoder och anpassade mätvärden, och lär dig instrumentera kod, definiera SLI:er och korrelera applikationsmätvärden med infrastrukturdata.
Förfrågningslatens och percentilerFelrater och felmönsterSpårning av HTTP-statuskodsklasserAnpassade affärs- och domänmätvärdenInstrumenteringsbibliotek och SDK:erLektion 10Tjänstenivåövervakning: process/tjänstkontroller, HTTP(S)-endpunkter, databashälsa, AD/Kerberos-latensFokus på övervakning av tjänsttillgänglighet genom processkontroller, HTTP(S)-prover, databashälsotest och identitetstjänster som AD och Kerberos, korrelerar dessa kontroller med användarriktad tillförlitlighet och SLA:er.
Process- och tjänstövervakningHTTP(S)-endpunktprobingDatabasanslutning och latensAD- och Kerberos-hälsokontrollerMappning av kontroller till SLA:er och SLO:er