Lekcija 1Sintetične in preverbe razpoložljivosti: razpoložljivost, zdravje cronjobov, opozorila o dokončanju varnostnih kopijOdkrijte, kako implementirati sintetične preverbe za razpoložljivost, preverbo načrtovanih nalog in dokončanje varnostnih kopij, oblikovati sonde, ki simulirajo uporabniške tokove, validirajo odvisnosti in nudijo zgodnje opozorilo, preden so prizadeti resni uporabniki.
HTTP uptime and availability probesMulti-step synthetic user journeysCronjob and scheduler health checksBackup success and RPO validationPlacement and frequency of probesLekcija 2Določanje pragov in pravil opozarjanja: statični pragovi, opozorila na podlagi hitrosti, zaznavanje anomalij in okna zatiranjaNaučite se določati pragove opozarjanja in pravila z uporabo statičnih omejitev, pogojev na podlagi hitrosti, zaznavanja anomalij in oken zatiranja, uravnotežite občutljivost in hrup, medtem ko se prilagajate spreminjajočim se obremenitvam in sezonskim vzorcem.
Static thresholds and baselinesRate-of-change and derivative alertsAnomaly and outlier detectionMaintenance and silence windowsTuning rules to reduce noiseLekcija 3Spremljanje infrastrukture za gostitelje hipervizorjev in zdravje instanc v oblaku ter opozorila o obračunavanjuNaučite se spremljati hipervizorje, virtualne stroje in instance v oblaku, vključno z zdravjem virov gostitelja, zmogljivostjo shranjevanja in omrežja, upravljanimi storitvami ter opozorili o obračunavanju ali proračunu za preprečevanje izpadov in nepričakovanih stroškov v oblaku.
Hypervisor host health checksVM and container resource usageCloud provider health metricsBilling, budget, and quota alertsMonitoring managed cloud servicesLekcija 4Strategija agregacije dnevnikov: centralni syslog, Windows Event Forwarding, formati dnevnikov, vidiki parsiranjaRazumite, kako centralizirati in normalizirati dnevnik z uporabo syslog, Windows Event Forwarding in agentov, oblikovati formate dnevnikov, ravnati s parsiranjem in obogatitvijo ter načrtovati zadrževanje, indeksiranje in nadzor dostopa za odpravljanje težav in revizije.
Central syslog and relay designWindows Event Forwarding basicsStructured log formats and fieldsParsing, grok, and JSON pipelinesRetention, indexing, and archivingAccess control and privacy concernsLekcija 5Platforme opozarjanja in usmerjanje: Alertmanager, PagerDuty, OpsGenie, integracije e-pošte in SlackPreučite, kako platforme opozarjanja prejemajo dogodke, deduplicirajo in usmerjajo opozorila ter se integrirajo z e-pošto, klepetom in orodji za strani, kot so Alertmanager, PagerDuty in OpsGenie, zagotavljajo, da so pravi ljudje hitro in zanesljivo obveščeni.
Alertmanager routing treesPagerDuty and OpsGenie basicsEmail and Slack notification designAlert grouping and deduplicationMulti-channel delivery and fallbacksLekcija 6Ključne metrike za spremljanje: CPU, pomnilnik, disk, I/O, omrežje, izmenjava, povprečna obremenitev, uporaba inodeNaučite se, katere metrike gostitelja so najbolj pomembne, kako interpretirati kazalnike CPU, pomnilnika, diska, I/O, omrežja, izmenjave, povprečne obremenitve in uporabe inode ter kako nastaviti razumne intervale zbiranja in osnove za zgodnje zaznavanje težav zmogljivosti.
CPU utilization and saturationMemory pressure and swappingDisk capacity and I/O latencyNetwork throughput and errorsLoad average and run queuesInode exhaustion risksLekcija 7Politike eskalacije, runbooki, deduplikacija opozoril in najboljše prakse razporejanja dežurstvaPreverite, kako oblikovati politike eskalacije, graditi uporabne runbooke, konfigurirati deduplikacijo opozoril in upravljati rotacije dežurstva, da so incidenti učinkovito obravnavani, medtem ko se minimizira utrujenost od opozoril in ščiti blagostanje ekipe.
Defining escalation paths and tiersWriting clear, actionable runbooksAlert deduplication and noise controlOn-call rotation and handoff rulesPost-incident reviews and learningLekcija 8Orodja spremljanja: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – utemeljitev izbire in kompromisePrimerjajte glavne sklope spremljanja, kot so Prometheus, Grafana, Zabbix, Nagios in Datadog, razumite izvoznike, agente, razširljivost, stroške, ekosistem in kako izbrati orodja, ki ustrezajo veščinam in omejitvam vaše organizacije.
Prometheus and node_exporter usageGrafana dashboards and alertingZabbix and Nagios strengths and limitsDatadog features and pricing impactCriteria for tool evaluation and choiceLekcija 9Spremljanje na ravni aplikacije: časi odziva, stopnje napak, kode stanja HTTP, lastne metrike aplikacijeRaziščite tehnike za spremljanje vedenja aplikacij, vključno z zakasnitvijo, stopnjami napak, kodami stanja HTTP in lastnimi metrikami, in se naučite instrumentirati kodo, določati SLI in korelirati metrike aplikacij z infrastrukturnimi podatki.
Request latency and percentilesError rates and failure patternsTracking HTTP status code classesCustom business and domain metricsInstrumentation libraries and SDKsLekcija 10Spremljanje na ravni storitve: preverbe procesov/storitev, končne točke HTTP(S), zdravje podatkovnih baz, zakasnitev AD/KerberosOsredotočite se na spremljanje razpoložljivosti storitev prek preverb procesov/storitev, sond HTTP(S), testov zdravja podatkovnih baz in storitev identitete, kot sta AD in Kerberos, korelirajte te preverbe z zanesljivostjo, vidno uporabnikom, in SLA.
Process and service supervisionHTTP(S) endpoint probingDatabase connectivity and latencyAD and Kerberos health checksMapping checks to SLAs and SLOs