Bài học 1Kiểm tra tổng hợp và tính sẵn sàng: uptime, sức khỏe cronjob, cảnh báo hoàn thành sao lưuKhám phá cách triển khai kiểm tra tổng hợp cho uptime, xác minh công việc theo lịch và hoàn thành sao lưu, thiết kế probe mô phỏng luồng người dùng, xác thực phụ thuộc và cung cấp cảnh báo sớm trước khi người dùng thực bị ảnh hưởng.
HTTP uptime and availability probesMulti-step synthetic user journeysCronjob and scheduler health checksBackup success and RPO validationPlacement and frequency of probesBài học 2Xác định ngưỡng và quy tắc cảnh báo: ngưỡng tĩnh, cảnh báo dựa trên tỷ lệ, phát hiện bất thường và cửa sổ ức chếHọc cách xác định ngưỡng cảnh báo và quy tắc sử dụng giới hạn tĩnh, điều kiện dựa trên tỷ lệ, phát hiện bất thường và cửa sổ ức chế, cân bằng độ nhạy và nhiễu đồng thời thích ứng với khối lượng công việc thay đổi và mô hình theo mùa.
Static thresholds and baselinesRate-of-change and derivative alertsAnomaly and outlier detectionMaintenance and silence windowsTuning rules to reduce noiseBài học 3Giám sát cơ sở hạ tầng cho máy chủ hypervisor và sức khỏe ví dụ đám mây cùng cảnh báo thanh toánHọc cách giám sát hypervisor, máy ảo và ví dụ đám mây, bao gồm sức khỏe tài nguyên máy chủ, hiệu suất lưu trữ và mạng, dịch vụ quản lý và cảnh báo thanh toán hoặc ngân sách để ngăn chặn sự cố và chi phí đám mây bất ngờ.
Hypervisor host health checksVM and container resource usageCloud provider health metricsBilling, budget, and quota alertsMonitoring managed cloud servicesBài học 4Chiến lược tổng hợp log: syslog tập trung, chuyển tiếp sự kiện Windows, định dạng log, xem xét phân tíchHiểu cách tập trung hóa và chuẩn hóa log sử dụng syslog, chuyển tiếp sự kiện Windows và agent, thiết kế định dạng log, xử lý phân tích và làm giàu, và lập kế hoạch lưu giữ, lập chỉ mục và kiểm soát truy cập cho khắc phục sự cố và kiểm toán.
Central syslog and relay designWindows Event Forwarding basicsStructured log formats and fieldsParsing, grok, and JSON pipelinesRetention, indexing, and archivingAccess control and privacy concernsBài học 5Nền tảng và định tuyến cảnh báo: Alertmanager, PagerDuty, OpsGenie, tích hợp email và SlackNghiên cứu cách nền tảng cảnh báo nhận sự kiện, loại bỏ trùng lặp và định tuyến cảnh báo, và tích hợp với email, chat và công cụ phân trang như Alertmanager, PagerDuty và OpsGenie, đảm bảo đúng người được thông báo nhanh chóng và đáng tin cậy.
Alertmanager routing treesPagerDuty and OpsGenie basicsEmail and Slack notification designAlert grouping and deduplicationMulti-channel delivery and fallbacksBài học 6Chỉ số chính cần giám sát: CPU, bộ nhớ, đĩa, I/O, mạng, swap, tải trung bình, sử dụng inodeHọc chỉ số máy chủ quan trọng nhất, cách diễn giải CPU, bộ nhớ, đĩa, I/O, mạng, swap, tải trung bình và sử dụng inode, và cách đặt khoảng thu thập hợp lý và đường cơ sở để phát hiện vấn đề hiệu suất sớm.
CPU utilization and saturationMemory pressure and swappingDisk capacity and I/O latencyNetwork throughput and errorsLoad average and run queuesInode exhaustion risksBài học 7Chính sách leo thang, runbook, loại bỏ trùng lặp cảnh báo và thực hành tốt nhất lập lịch trực caXem xét cách thiết kế chính sách leo thang, xây dựng runbook hành động, cấu hình loại bỏ trùng lặp cảnh báo và quản lý lịch trực ca để sự cố được xử lý hiệu quả đồng thời giảm mệt mỏi cảnh báo và bảo vệ sức khỏe đội ngũ.
Defining escalation paths and tiersWriting clear, actionable runbooksAlert deduplication and noise controlOn-call rotation and handoff rulesPost-incident reviews and learningBài học 8Công cụ giám sát: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – lý do chọn và đánh đổiSo sánh các stack giám sát chính như Prometheus, Grafana, Zabbix, Nagios và Datadog, hiểu exporter, agent, khả năng mở rộng, chi phí, hệ sinh thái và cách chọn công cụ phù hợp với kỹ năng và ràng buộc tổ chức.
Prometheus and node_exporter usageGrafana dashboards and alertingZabbix and Nagios strengths and limitsDatadog features and pricing impactCriteria for tool evaluation and choiceBài học 9Giám sát cấp ứng dụng: thời gian phản hồi, tỷ lệ lỗi, mã trạng thái HTTP, chỉ số ứng dụng tùy chỉnhKhám phá kỹ thuật giám sát hành vi ứng dụng, bao gồm độ trễ, tỷ lệ lỗi, mã trạng thái HTTP và chỉ số tùy chỉnh, và học cách trang bị mã, xác định SLI và tương quan chỉ số ứng dụng với dữ liệu cơ sở hạ tầng.
Request latency and percentilesError rates and failure patternsTracking HTTP status code classesCustom business and domain metricsInstrumentation libraries and SDKsBài học 10Giám sát cấp dịch vụ: kiểm tra tiến trình/dịch vụ, điểm cuối HTTP(S), sức khỏe cơ sở dữ liệu, độ trễ AD/KerberosTập trung vào giám sát tính sẵn sàng dịch vụ qua kiểm tra tiến trình/dịch vụ, probe HTTP(S), kiểm tra sức khỏe cơ sở dữ liệu và dịch vụ danh tính như AD và Kerberos, tương quan kiểm tra với độ tin cậy hướng người dùng và SLA.
Process and service supervisionHTTP(S) endpoint probingDatabase connectivity and latencyAD and Kerberos health checksMapping checks to SLAs and SLOs