Урок 1Синтетические и проверки доступности: uptime, здоровье cron-заданий, оповещения о завершении резервного копированияУзнайте, как реализовать синтетические проверки для uptime, верификации запланированных заданий и завершения резервного копирования, проектируя пробы, симулирующие потоки пользователей, валидирующие зависимости и предоставляющие раннее предупреждение до влияния на реальных пользователей.
HTTP uptime and availability probesMulti-step synthetic user journeysCronjob and scheduler health checksBackup success and RPO validationPlacement and frequency of probesУрок 2Определение порогов и правил оповещений: статические пороги, оповещения на основе скорости, обнаружение аномалий и окна подавленияУзнайте, как определять пороги оповещений и правила с использованием статических лимитов, условий на основе скорости, обнаружения аномалий и окон подавления, балансируя чувствительность и шум при адаптации к изменяющимся нагрузкам и сезонным паттернам.
Static thresholds and baselinesRate-of-change and derivative alertsAnomaly and outlier detectionMaintenance and silence windowsTuning rules to reduce noiseУрок 3Мониторинг инфраструктуры для хостов гипервизора и здоровья облачных экземпляров, оповещения о биллингеУзнайте, как мониторить гипервизоры, виртуальные машины и облачные экземпляры, включая здоровье ресурсов хоста, производительность хранилища и сети, управляемые услуги, а также оповещения о биллинге или бюджете для предотвращения сбоев и неожиданных облачных затрат.
Hypervisor host health checksVM and container resource usageCloud provider health metricsBilling, budget, and quota alertsMonitoring managed cloud servicesУрок 4Стратегия агрегации логов: центральный syslog, Windows Event Forwarding, форматы логов, соображения парсингаПоймите, как централизовать и нормализовать логи с использованием syslog, Windows Event Forwarding и агентов, проектировать форматы логов, обрабатывать парсинг и обогащение, планировать хранение, индексацию и контроль доступа для устранения неполадок и аудитов.
Central syslog and relay designWindows Event Forwarding basicsStructured log formats and fieldsParsing, grok, and JSON pipelinesRetention, indexing, and archivingAccess control and privacy concernsУрок 5Платформы оповещений и маршрутизация: Alertmanager, PagerDuty, OpsGenie, интеграции email и SlackИзучите, как платформы оповещений принимают события, дедуплицируют и маршрутизируют оповещения, интегрируясь с email, чатом и инструментами пейджинга, такими как Alertmanager, PagerDuty и OpsGenie, обеспечивая быстрое и надежное уведомление правильных людей.
Alertmanager routing treesPagerDuty and OpsGenie basicsEmail and Slack notification designAlert grouping and deduplicationMulti-channel delivery and fallbacksУрок 6Ключевые метрики для мониторинга: CPU, память, диск, I/O, сеть, swap, средняя нагрузка, использование inodeУзнайте, какие метрики хоста наиболее важны, как интерпретировать индикаторы CPU, памяти, диска, I/O, сети, swap, средней нагрузки и использования inode, и как устанавливать разумные интервалы сбора и базовые линии для раннего обнаружения проблем производительности.
CPU utilization and saturationMemory pressure and swappingDisk capacity and I/O latencyNetwork throughput and errorsLoad average and run queuesInode exhaustion risksУрок 7Политики эскалации, runbooks, дедупликация оповещений и лучшие практики планирования дежурствИзучите, как проектировать политики эскалации, создавать действенные runbooks, настраивать дедупликацию оповещений и управлять ротациями дежурств, чтобы инциденты обрабатывались эффективно, минимизируя усталость от оповещений и защищая благополучие команды.
Defining escalation paths and tiersWriting clear, actionable runbooksAlert deduplication and noise controlOn-call rotation and handoff rulesPost-incident reviews and learningУрок 8Инструменты мониторинга: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog — обоснование выбора и компромиссыСравните основные стеки мониторинга, такие как Prometheus, Grafana, Zabbix, Nagios и Datadog, понимая экспортеры, агенты, масштабируемость, стоимость, экосистему и как выбирать инструменты, подходящие навыкам и ограничениям вашей организации.
Prometheus and node_exporter usageGrafana dashboards and alertingZabbix and Nagios strengths and limitsDatadog features and pricing impactCriteria for tool evaluation and choiceУрок 9Мониторинг на уровне приложений: время отклика, уровень ошибок, коды статусов HTTP, пользовательские метрики приложенийИсследуйте техники мониторинга поведения приложений, включая задержки, уровень ошибок, коды статусов HTTP и пользовательские метрики, и научитесь инструментировать код, определять SLI и коррелировать метрики приложений с данными инфраструктуры.
Request latency and percentilesError rates and failure patternsTracking HTTP status code classesCustom business and domain metricsInstrumentation libraries and SDKsУрок 10Мониторинг на уровне услуг: проверки процессов/услуг, конечные точки HTTP(S), здоровье баз данных, задержка AD/KerberosФокус на мониторинге доступности услуг через проверки процессов/услуг, пробы HTTP(S), тесты здоровья баз данных и служб идентификации, таких как AD и Kerberos, коррелируя эти проверки с надежностью, ориентированной на пользователя, и SLA.
Process and service supervisionHTTP(S) endpoint probingDatabase connectivity and latencyAD and Kerberos health checksMapping checks to SLAs and SLOs