שיעור 1אסטרטגיות גיבוי: מלא מול דיפרנציאלי, גיבויי DB לוגיים מול פיזיים, גיבויי מערכת קבצים מול יישום, מדיניות שמירהתכנון אסטרטגיות גיבוי לשרתים ומסדי נתונים, השוואת גיבויים מלאים ודיפרנציאליים, שיטות לוגיות ופיזיות, וגישות ברמת מערכת קבצים מול יישום. הגדרת שמירה, הצפנה ואימות.
Full versus incremental backup plansLogical versus physical DB backupsFilesystem and application-level backupsBackup encryption and access controlRetention schedules and legal needsשיעור 2לוגים מרוכזים: syslog מול logstash מול fluentd, סיבוב לוגים, שמירה, אסטרטגיות אינדוקס ותמחור ליישום פנימילמידה כיצד לרכז לוגים ליישום פנימי באמצעות syslog, Logstash או Fluentd. כיסוי איסוף לוגים, סיבוב, שמירה, אסטרטגיות אינדוקס ותמחור קיבולת לתמיכה בצורכי פתרון בעיות ותאימות.
Choosing log shippers and collectorsDesigning log formats and metadataLog rotation and retention policiesIndexing strategies for fast searchSizing storage and ingestion ratesשיעור 3תכנון ארכיטקטורה של 4 צמתים: תפקידים והפרדה (2 שרתי אינטרנט, 1 עובד יישום, 1 DB, לוג/ניטור מרכזי אופציונלי)תכנון ארכיטקטורה מעשית של ארבעה צמתים עם הפרדת תפקידים ברורה. מיקום שני שרתים אינטרנט, עובד יישום אחד וצומת מסד נתונים אחד, ושקילת הוספת לוגים וניטור מרוכזים לתצפית ועמידות.
Defining roles for each server nodeWeb tier design and reverse proxiesApplication worker patterns and queuesDatabase placement and connectivityAdding shared logging and monitoringשיעור 4תכנון רשת: רשתות פרטיות, קבוצות אבטחה, כללי חומת אש, NAT וניתוב בין on-prem לענןלמידה כיצד לתכנן רשתות מאובטחות ועמידות לסביבות היברידיות. כיסוי תת-רשתות פרטיות, קבוצות אבטחה, מדיניות חומת אש, דפוסי NAT וניתוב בין on-premises לענן לתמיכה בהפעלות שרתים מדרגיות.
Designing private and public subnetsSecurity groups and firewall rule designNAT gateways and outbound internet accessRouting between on-prem and cloud VPCsNetwork segmentation for app tiersשיעור 5ניהול תיקונים: מחזור חיים של חבילות מערכת הפעלה, כלי ניהול תצורה (Ansible, Puppet, Salt), חלונות מתוזמנים ותוכניות חזרהתכנון והפעלת ניהול תיקונים למערכות הפעלה ויישומים. למידת מחזורי חיים של חבילות, שימוש ב-Ansible, Puppet או Salt, תזמון חלונות תחזוקה, בדיקת עדכונים והכנת תוכניות חזרה ותקשורת.
OS and package lifecycle conceptsUsing Ansible, Puppet, or SaltPatch testing and staging environmentsScheduling maintenance windowsRollback strategies and communicationשיעור 6בקרת גישה ואימות: ניהול מפתחות SSH, דפוסי מארח bastion, jumpboxes, מיקום VPN, שיקולי MFAתכנון בקרת גישה מאובטחת לשרתים באמצעות מפתחות SSH, מארחי bastion ו-VPN. למידת ניהול מחזור חיים של מפתחות, דפוסי jumpbox, שילוב MFA ולוגים של גישה מנהלית לתאימות ותגובה לאירועים.
SSH key generation and rotationBastion hosts and jumpbox patternsVPN placement and traffic flowsIntegrating MFA for admin accessAuditing and logging remote sessionsשיעור 7בדיקות שחזור: תרגילי שחזור, שחזור נקודת זמן למסדי נתונים, מושגי RTO/RPO ואימות שחזוריםהבנת כיצד להוכיח שגיבויים שמישים באמצעות בדיקות שחזור מובנות. תרגול תרגילי שחזור, שחזור נקודת זמן של מסדי נתונים ושלבים אימות המותאמים ליעדי RTO ו-RPO לשירותים פנימיים קריטיים.
Defining RTO and RPO objectivesPlanning and running recovery drillsTesting database point-in-time restoresValidating application-level restoresDocumenting and reviewing test resultsשיעור 8Runbooks ו-playbooks תפעוליים: יצירה ואחסון runbooks, ניהול שינויים, דוגמאות runbook למשימות נפוצותיצירת runbooks ו-playbooks תפעוליים יעילים למשימות שגרה וחירום. למידת מבנה, אחסון ובקרת שינויים, וביקורת דוגמאות קונקרטיות להפעלות, אתחולים, סיווג אירועים ושלבים חזרה.
Runbook structure and required detailsVersioning and storing runbooksChange management and approvalsRunbooks for common maintenance tasksIncident response and escalation playbooksשיעור 9ארכיטקטורת ניטור והתראות בסיסית: מדדים, לוגים, מסלולים; בחירת ערימת ניטור (Prometheus, Grafana, Alertmanager, Nagios, Zabbix)בניית ארכיטקטורת ניטור והתראות בסיסית באמצעות מדדים, לוגים ומסלולים. השוואת Prometheus, Grafana, Alertmanager, Nagios ו-Zabbix, ועיצוב כללי התראות, לוחות מחוונים ומסלולי הסלמה לשירותים פנימיים.
Key metrics, logs, and tracing signalsSelecting a monitoring tool stackDesigning dashboards for operatorsAlert rules, thresholds, and noise controlEscalation policies and on-call flowsשיעור 10מגבלות זמינות גבוהה וכפילות ליישום פנימי בינוני (איזון עומס, סשנים דביקים, מאחסני סשנים)חקירת דפוסי זמינות גבוהה ומגבלות כפילות ליישום פנימי בינוני. למידת אפשרויות איזון עומס, טיפול בסשנים דביקים, מאחסני סשנים חיצוניים ותרחישי כשל לאיזון עלות, מורכבות וזמינות.
Identifying availability requirementsLoad balancer types and health checksSticky sessions versus stateless designExternal session stores and cachingFailure modes and graceful degradation