Bài học 1Chiến lược sao lưu: đầy đủ so với tăng dần, sao lưu DB logic so với vật lý, sao lưu hệ thống tệp so với ứng dụng, chính sách lưu trữThiết kế chiến lược sao lưu cho máy chủ và cơ sở dữ liệu, so sánh sao lưu đầy đủ và tăng dần, phương pháp logic và vật lý, cũng như cách tiếp cận cấp hệ thống tệp so với cấp ứng dụng. Xác định lưu trữ, mã hóa và thực hành xác thực.
Full versus incremental backup plansLogical versus physical DB backupsFilesystem and application-level backupsBackup encryption and access controlRetention schedules and legal needsBài học 2Ghi log tập trung: syslog so với logstash so với fluentd, xoay vòng log, lưu trữ, chiến lược chỉ mục và tính toán kích thước cho ứng dụng nội bộHọc cách tập trung log cho ứng dụng nội bộ sử dụng syslog, Logstash hoặc Fluentd. Chúng tôi bao gồm thu thập log, xoay vòng, lưu trữ, chiến lược lập chỉ mục và tính toán kích thước dung lượng để hỗ trợ khắc phục sự cố và nhu cầu tuân thủ.
Choosing log shippers and collectorsDesigning log formats and metadataLog rotation and retention policiesIndexing strategies for fast searchSizing storage and ingestion ratesBài học 3Thiết kế kiến trúc 4 nút: vai trò và phân tách (2 máy chủ web, 1 worker ứng dụng, 1 DB, log/giám sát tập trung tùy chọn)Thiết kế kiến trúc bốn nút thực tế với sự phân tách vai trò rõ ràng. Bạn sẽ đặt hai máy chủ web, một worker ứng dụng và một nút cơ sở dữ liệu, và xem xét thêm ghi log và giám sát tập trung để quan sát và phục hồi.
Defining roles for each server nodeWeb tier design and reverse proxiesApplication worker patterns and queuesDatabase placement and connectivityAdding shared logging and monitoringBài học 4Thiết kế mạng: mạng riêng, nhóm bảo mật, quy tắc tường lửa, NAT và định tuyến giữa on-prem và đám mâyHọc cách thiết kế mạng an toàn, phục hồi cho môi trường lai. Chúng tôi bao gồm subnet riêng, nhóm bảo mật, chính sách tường lửa, mẫu NAT và định tuyến giữa on-premises và đám mây để hỗ trợ triển khai máy chủ có thể mở rộng.
Designing private and public subnetsSecurity groups and firewall rule designNAT gateways and outbound internet accessRouting between on-prem and cloud VPCsNetwork segmentation for app tiersBài học 5Quản lý vá lỗi: vòng đời gói hệ điều hành, công cụ quản lý cấu hình (Ansible, Puppet, Salt), cửa sổ định kỳ và kế hoạch rollbackLập kế hoạch và vận hành quản lý vá lỗi cho hệ điều hành và ứng dụng. Học vòng đời gói, sử dụng Ansible, Puppet hoặc Salt, lập lịch cửa sổ bảo trì, kiểm tra cập nhật và chuẩn bị kế hoạch rollback và truyền thông.
OS and package lifecycle conceptsUsing Ansible, Puppet, or SaltPatch testing and staging environmentsScheduling maintenance windowsRollback strategies and communicationBài học 6Kiểm soát truy cập và xác thực: quản lý khóa SSH, mẫu máy chủ bastion, jumpbox, đặt vị trí VPN, cân nhắc MFAThiết kế kiểm soát truy cập an toàn cho máy chủ sử dụng khóa SSH, máy chủ bastion và VPN. Học quản lý vòng đời khóa, mẫu jumpbox, tích hợp MFA và ghi log truy cập quản trị cho tuân thủ và phản ứng sự cố.
SSH key generation and rotationBastion hosts and jumpbox patternsVPN placement and traffic flowsIntegrating MFA for admin accessAuditing and logging remote sessionsBài học 7Kiểm tra khôi phục: diễn tập khôi phục, khôi phục điểm theo thời gian cho cơ sở dữ liệu, khái niệm RTO/RPO và cách xác thực khôi phụcHiểu cách chứng minh sao lưu có thể sử dụng qua kiểm tra khôi phục có cấu trúc. Bạn sẽ thực hành diễn tập khôi phục, khôi phục điểm theo thời gian cho cơ sở dữ liệu và các bước xác thực phù hợp với mục tiêu RTO và RPO cho dịch vụ nội bộ quan trọng.
Defining RTO and RPO objectivesPlanning and running recovery drillsTesting database point-in-time restoresValidating application-level restoresDocumenting and reviewing test resultsBài học 8Runbook và playbook vận hành: tạo và lưu trữ runbook, quản lý thay đổi, ví dụ runbook cho tác vụ phổ biếnTạo runbook và playbook vận hành hiệu quả cho tác vụ thường xuyên và khẩn cấp. Học cấu trúc, lưu trữ và kiểm soát thay đổi, và xem xét ví dụ cụ thể cho triển khai, khởi động lại, phân loại sự cố và bước rollback.
Runbook structure and required detailsVersioning and storing runbooksChange management and approvalsRunbooks for common maintenance tasksIncident response and escalation playbooksBài học 9Kiến trúc giám sát và cảnh báo cơ bản: chỉ số, log, dấu vết; chọn stack giám sát (Prometheus, Grafana, Alertmanager, Nagios, Zabbix)Xây dựng kiến trúc giám sát và cảnh báo cơ bản sử dụng chỉ số, log và dấu vết. So sánh Prometheus, Grafana, Alertmanager, Nagios và Zabbix, và thiết kế quy tắc cảnh báo, bảng điều khiển và đường dẫn leo thang cho dịch vụ nội bộ.
Key metrics, logs, and tracing signalsSelecting a monitoring tool stackDesigning dashboards for operatorsAlert rules, thresholds, and noise controlEscalation policies and on-call flowsBài học 10Đánh đổi tính sẵn sàng cao và dư thừa cho ứng dụng nội bộ cỡ trung (cân bằng tải, phiên dính, kho lưu trữ phiên)Khám phá mẫu tính sẵn sàng cao và đánh đổi dư thừa cho ứng dụng nội bộ cỡ trung. Học tùy chọn cân bằng tải, xử lý phiên dính, kho lưu trữ phiên bên ngoài và kịch bản thất bại để cân bằng chi phí, độ phức tạp và thời gian hoạt động.
Identifying availability requirementsLoad balancer types and health checksSticky sessions versus stateless designExternal session stores and cachingFailure modes and graceful degradation