שיעור 1בדיקות סינתטיות ובדיקות זמינות: זמינות, בריאות cronjob, התראות השלמת גיבויגלו כיצד ליישם בדיקות סינתטיות לזמינות, אימות משימות מתוזמנות והתראות השלמת גיבוי, תוך תכנון חיישנים שמדמים זרימות משתמש, מאמתים תלות ומספקים אזהרה מוקדמת לפני השפעה על משתמשים אמיתיים.
HTTP uptime and availability probesMulti-step synthetic user journeysCronjob and scheduler health checksBackup success and RPO validationPlacement and frequency of probesשיעור 2הגדרת ספים וכללי התראה: ספים סטטיים, התראות מבוססות קצב, זיהוי חריגות, חלונות דיכוילמדו כיצד להגדיר ספי התראה וכללים באמצעות גבולות סטטיים, תנאים מבוססי קצב, זיהוי חריגות וחלונות דיכוי, תוך איזון רגישות ורעש בהתאמה לעומסים משתנים ודפוסים עונתיים.
Static thresholds and baselinesRate-of-change and derivative alertsAnomaly and outlier detectionMaintenance and silence windowsTuning rules to reduce noiseשיעור 3ניטור תשתית למארחי היפרוויזור ובריאות מופעי ענן והתראות חיובלמדו כיצד לנטר היפרוויזורים, מכונות וירטואליות ומופעי ענן, כולל בריאות משאבי מארח, ביצועי אחסון ורשת, שירותים מנוהלים והתראות חיוב או תקציב למניעת השבתות ועלויות ענן בלתי צפויות.
Hypervisor host health checksVM and container resource usageCloud provider health metricsBilling, budget, and quota alertsMonitoring managed cloud servicesשיעור 4אסטרטגיית אגרגציית לוגים: syslog מרכזי, העברת אירועי Windows, פורמטי לוגים, שיקולים פרסינגהבינו כיצד למקד ולנרמל לוגים באמצעות syslog מרכזי, העברת אירועי Windows ו-agents, תכנון פורמטי לוגים, טיפול בפרסינג והעשרה, ותכנון שמירה, אינדוקס וקיצור גישה לאבחון וביקורות.
Central syslog and relay designWindows Event Forwarding basicsStructured log formats and fieldsParsing, grok, and JSON pipelinesRetention, indexing, and archivingAccess control and privacy concernsשיעור 5פלטפורמות התראה וממשק: Alertmanager, PagerDuty, OpsGenie, שילובי אימייל ו-Slackלמדו כיצד פלטפורמות התראה מקבלות אירועים, מבצעות deduplication וממקמות התראות, ומשלבות עם אימייל, צ'אט וכלי paging כמו Alertmanager, PagerDuty ו-OpsGenie, תוך הבטחת התראה מהירה ואמינה לאנשים הנכונים.
Alertmanager routing treesPagerDuty and OpsGenie basicsEmail and Slack notification designAlert grouping and deduplicationMulti-channel delivery and fallbacksשיעור 6מדדים מרכזיים לניטור: CPU, זיכרון, דיסק, I/O, רשת, swap, ממוצע עומס, שימוש inodeלמדו אילו מדדי מארח חשובים ביותר, כיצד לפרש מדדי CPU, זיכרון, דיסק, I/O, רשת, swap, ממוצע עומס ושימוש inode, וכיצד להגדיר מרווחי איסוף בסיסיים לזיהוי בעיות ביצועים מוקדם.
CPU utilization and saturationMemory pressure and swappingDisk capacity and I/O latencyNetwork throughput and errorsLoad average and run queuesInode exhaustion risksשיעור 7מדיניות הסלמה, runbooks, deduplication התראות ותזמון על-משמרת מומלץבחנו כיצד לתכנן מדיניות הסלמה, לבנות runbooks פעולה, להגדיר deduplication התראות ולנהל סבבי על-משמרת כך שתקריות מטופלות ביעילות תוך הפחתת עייפות התראות והגנה על רווחת הצוות.
Defining escalation paths and tiersWriting clear, actionable runbooksAlert deduplication and noise controlOn-call rotation and handoff rulesPost-incident reviews and learningשיעור 8כלי ניטור: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – נימוקי בחירה ומשא ומתןהשוו ערימות ניטור מרכזיות כמו Prometheus, Grafana, Zabbix, Nagios ו-Datadog, תוך הבנת exporters, agents, מדרגיות, עלות, אקוסיסטמה וכיצד לבחור כלים שמתאימים לכישורי הארגון ומגבלות.
Prometheus and node_exporter usageGrafana dashboards and alertingZabbix and Nagios strengths and limitsDatadog features and pricing impactCriteria for tool evaluation and choiceשיעור 9ניטור רמת אפליקציה: זמני תגובה, שיעורי שגיאה, קודי סטטוס HTTP, מדדי אפליקציה מותאמיםחקרו טכניקות לניטור התנהגות אפליקציה, כולל השהיות, שיעורי שגיאה, קודי סטטוס HTTP ומדדים מותאמים, ולמדו כיצד להטמיע קוד, להגדיר SLI ולקשר מדדי אפליקציה עם נתוני תשתית.
Request latency and percentilesError rates and failure patternsTracking HTTP status code classesCustom business and domain metricsInstrumentation libraries and SDKsשיעור 10ניטור רמת שירות: בדיקות תהליך/שירות, נקודות קצה HTTP(S), בריאות מסד נתונים, השהיית AD/Kerberosהתמקדו בניטור זמינות שירות באמצעות בדיקות תהליך, חיישני HTTP(S), בדיקות בריאות מסד נתונים ושירותי זהות כמו AD ו-Kerberos, תוך קישור הבדיקות עם אמינות פונה-משתמש ו-SLA.
Process and service supervisionHTTP(S) endpoint probingDatabase connectivity and latencyAD and Kerberos health checksMapping checks to SLAs and SLOs