1 වන පාඩමSynthetic සහ availability checks: uptime, cronjob health, backup completion alertsUptime, scheduled job verification, backup completion සඳහා synthetic checks implement කරන්නේ කෙසේද බලන්න. User flows simulate කරන probes design කිරීම, dependencies validate කිරීම, සහ real users impacted වෙන්නට පෙර early warning සැපයීම.
HTTP uptime සහ availability probesMulti-step synthetic user journeysCronjob සහ scheduler health checksBackup success සහ RPO validationProbes සඳහා placement සහ frequency2 වන පාඩමThresholds සහ alert rules define කිරීම: static thresholds, rate-based alerts, anomaly detection, සහ suppression windowsStatic limits, rate-based conditions, anomaly detection, suppression windows භාවිතයෙන් alert thresholds සහ rules define කරන්නේ කෙසේද ඉගෙන ගන්න, sensitivity සහ noise balance කරමින් changing workloads සහ seasonal patterns හට adapt වෙමින්.
Static thresholds සහ baselinesRate-of-change සහ derivative alertsAnomaly සහ outlier detectionMaintenance සහ silence windowsNoise අඩු කිරීමට rules tuning3 වන පාඩමHypervisor hosts සහ cloud instance health සහ billing alerts සඳහා infrastructure monitoringHypervisors, virtual machines, cloud instances monitor කරන්නේ කෙසේද ඉගෙන ගන්න, host resource health, storage සහ network performance, managed services, billing හෝ budget alerts ඇතුළුව outages සහ unexpected cloud costs වළක්වා ගැනීමට.
Hypervisor host health checksVM සහ container resource usageCloud provider health metricsBilling, budget, සහ quota alertsManaged cloud services monitoring4 වන පාඩමLog aggregation strategy: central syslog, Windows Event Forwarding, log formats, parsing considerationsSyslog, Windows Event Forwarding, agents භාවිතයෙන් logs centralize සහ normalize කරන්නේ කෙසේද තේරුම් ගන්න, log formats design, parsing සහ enrichment handle කිරීම, retention, indexing, access controls plan කිරීම troubleshooting සහ audits සඳහා.
Central syslog සහ relay designWindows Event Forwarding basicsStructured log formats සහ fieldsParsing, grok, සහ JSON pipelinesRetention, indexing, සහ archivingAccess control සහ privacy concerns5 වන පාඩමAlerting platforms සහ routing: Alertmanager, PagerDuty, OpsGenie, email සහ Slack integrationsAlerting platforms events receive, deduplicate සහ route කරන්නේ කෙසේද study කරන්න, Alertmanager, PagerDuty, OpsGenie වැනි email, chat, paging tools සමඟ integrate කරමින් right people quickly reliably notified වෙන ආකාරයට.
Alertmanager routing treesPagerDuty සහ OpsGenie basicsEmail සහ Slack notification designAlert grouping සහ deduplicationMulti-channel delivery සහ fallbacks6 වන පාඩමMonitor කළ යුතු key metrics: CPU, memory, disk, I/O, network, swap, load average, inode usageHost metrics වලින් වැදගත්ම ඒවා කුමක්ද ඉගෙන ගන්න, CPU, memory, disk, I/O, network, swap, load, inode indicators interpret කරන්නේ කෙසේද, sane collection intervals සහ baselines set කර performance issues early detect කිරීමට.
CPU utilization සහ saturationMemory pressure සහ swappingDisk capacity සහ I/O latencyNetwork throughput සහ errorsLoad average සහ run queuesInode exhaustion risks7 වන පාඩමEscalation policies, runbooks, alert deduplication, සහ on-call scheduling best practicesEscalation policies design, actionable runbooks build, alert deduplication configure, on-call rotations manage කරන්නේ කෙසේද examine කරන්න incidents efficiently handled වෙන ආකාරයට alert fatigue අඩු කරමින් team well-being ආරක්ෂා කරමින්.
Escalation paths සහ tiers define කිරීමClear, actionable runbooks writingAlert deduplication සහ noise controlOn-call rotation සහ handoff rulesPost-incident reviews සහ learning8 වන පාඩමMonitoring tools: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – selection rationale සහ tradeoffsPrometheus, Grafana, Zabbix, Nagios, Datadog වැනි major monitoring stacks compare කරන්න, exporters, agents, scalability, cost, ecosystem තේරුම් ගෙන organization skills සහ constraints හට ගැලපෙන tools තෝරා ගැනීම.
Prometheus සහ node_exporter usageGrafana dashboards සහ alertingZabbix සහ Nagios strengths සහ limitsDatadog features සහ pricing impactTool evaluation සහ choice criteria9 වන පාඩමApplication-level monitoring: response times, error rates, HTTP status codes, custom application metricsApplication behavior monitor කිරීමට techniques explore කරන්න, latency, error rates, HTTP status codes, custom metrics ඇතුළුව, code instrument කිරීම, SLIs define කිරීම, app metrics infrastructure data සමඟ correlate කිරීම ඉගෙන ගන්න.
Request latency සහ percentilesError rates සහ failure patternsHTTP status code classes trackingCustom business සහ domain metricsInstrumentation libraries සහ SDKs10 වන පාඩමService-level monitoring: process/service checks, HTTP(S) endpoints, database health, AD/Kerberos latencyProcess checks, HTTP(S) probes, database health tests, AD සහ Kerberos වැනි identity services හරහා service availability monitor කිරීම මත අවධානය, checks user-facing reliability සහ SLAs සමඟ correlate කිරීම.
Process සහ service supervisionHTTP(S) endpoint probingDatabase connectivity සහ latencyAD සහ Kerberos health checksSLAs සහ SLOs හට checks mapping