Урок 1Синтетичні та перевірки доступності: uptime, здоров’я cronjob, сповіщення про завершення резервного копіюванняДізнайтеся, як впроваджувати синтетичні перевірки для uptime, верифікації запланованих завдань та завершення резервного копіювання, проектуючи зонди, що симулюють потоки користувачів, валідують залежності та надають раннє попередження до впливу на реальних користувачів.
Зонди HTTP uptime та доступностіБагатокрокові синтетичні шляхи користувачівПеревірки здоров’я cronjob та планувальниківВалідація успіху резервного копіювання та RPOРозташування та частота зондівУрок 2Визначення порогів та правил сповіщень: статичні пороги, сповіщення на основі швидкості, виявлення аномалій та вікна придушенняНавчіться визначати пороги сповіщень та правила за допомогою статичних лімітів, умов на основі швидкості, виявлення аномалій та вікон придушення, балансуючи чутливість та шум з адаптацією до змінних навантажень та сезонних патернів.
Статичні пороги та базові лініїСповіщення на основі швидкості змін та деривативівВиявлення аномалій та викидівВікна обслуговування та мовчанняНалаштування правил для зменшення шумуУрок 3Моніторинг інфраструктури для хостів гіпервізорів та здоров’я інстансів хмар та сповіщення про білінгНавчіться моніторити гіпервізори, віртуальні машини та інстанси хмар, включаючи здоров’я ресурсів хостів, продуктивність сховища та мережі, керовані сервіси та сповіщення про білінг або бюджет для запобігання простоям та несподіваним витратам хмари.
Перевірки здоров’я хостів гіпервізорівВикористання ресурсів VM та контейнерівМетрики здоров’я постачальників хмарСповіщення про білінг, бюджет та квотиМоніторинг керованих хмарних сервісівУрок 4Стратегія агрегації логів: центральний syslog, Windows Event Forwarding, формати логів, міркування парсингуЗрозумійте, як централізувати та нормалізувати логи за допомогою syslog, Windows Event Forwarding та агентів, проектувати формати логів, обробляти парсинг та збагачення, планувати утримання, індексацію та контроль доступу для усунення несправностей та аудитів.
Проектування центрального syslog та релеОснови Windows Event ForwardingСтруктуровані формати логів та поляКонвеєри парсингу, grok та JSONУтримання, індексація та архіваціяКонтроль доступу та проблеми приватностіУрок 5Платформи сповіщень та маршрутизація: Alertmanager, PagerDuty, OpsGenie, інтеграції email та SlackВивчіть, як платформи сповіщень отримують події, дедублікують та маршрутизують сповіщення, інтегруються з email, чатами та пейджингом, такими як Alertmanager, PagerDuty та OpsGenie, забезпечуючи швидке та надійне сповіщення правильних людей.
Дерева маршрутизації AlertmanagerОснови PagerDuty та OpsGenieПроектування сповіщень email та SlackГрупування та дедублікація сповіщеньБагатоканальна доставка та резервні копіїУрок 6Ключові метрики для моніторингу: CPU, пам’ять, диск, I/O, мережа, swap, середнє навантаження, використання inodeНавчіться, які метрики хостів найважливіші, як інтерпретувати показники CPU, пам’яті, диска, I/O, мережі, swap, навантаження та inode, та як встановлювати розумні інтервали збору та базові лінії для раннього виявлення проблем продуктивності.
Використання та насичення CPUТиск пам’яті та свопінгМісткість диска та затримка I/OПропускна здатність мережі та помилкиСереднє навантаження та черги виконанняРизики вичерпання inodeУрок 7Політики ескалації, runbooks, дедублікація сповіщень та найкращі практики планування чергуваньРозгляньте, як проектувати політики ескалації, створювати дієві runbooks, налаштовувати дедублікацію сповіщень та керувати ротаціями чергувань, щоб інциденти оброблялися ефективно, мінімізуючи втому від сповіщень та захищаючи благополуччя команди.
Визначення шляхів та рівнів ескалаціїНаписання чітких, дієвих runbooksДедублікація сповіщень та контроль шумуРотація чергувань та правила передачіПост-інцидентні огляди та навчанняУрок 8Інструменти моніторингу: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – обґрунтування вибору та компромісиПорівняйте основні стеки моніторингу, такі як Prometheus, Grafana, Zabbix, Nagios та Datadog, розуміючи експортери, агенти, масштабованість, вартість, екосистему та як обирати інструменти, що відповідають навичкам та обмеженням вашої організації.
Використання Prometheus та node_exporterПанелі та сповіщення GrafanaСильні сторони та обмеження Zabbix та NagiosФункції Datadog та вплив ціноутворенняКритерії оцінки та вибору інструментівУрок 9Моніторинг на рівні додатків: часи відповіді, рівні помилок, коди статусу HTTP, кастомні метрики додатківДослідіть техніки моніторингу поведінки додатків, включаючи затримки, рівні помилок, коди статусу HTTP та кастомні метрики, навчіться інструментувати код, визначати SLI та корелювати метрики додатків з даними інфраструктури.
Затримки запитів та перцентиліРівні помилок та патерни відмовВідстеження класів кодів статусу HTTPКастомні бізнесові та доменні метрикиБібліотеки та SDK інструментаціїУрок 10Моніторинг на рівні сервісів: перевірки процесів/сервісів, HTTP(S) ендпоінти, здоров’я баз даних, затримка AD/KerberosФокусуйтеся на моніторингу доступності сервісів через перевірки процесів, зонди HTTP(S), тести здоров’я баз даних та сервісів ідентифікації, таких як AD та Kerberos, корелюючи перевірки з надійністю, орієнтованою на користувача, та SLA.
Нагляд за процесами та сервісамиЗондування ендпоінтів HTTP(S)Підключення та затримка баз данихПеревірки здоров’я AD та KerberosВідображення перевірок на SLA та SLO