수업 1합성 및 가용성 검사: 업타임, 크론잡 헬스, 백업 완료 알림업타임, 스케줄 작업 검증, 백업 완료를 위한 합성 검사를 구현하는 방법을 알아보고, 사용자 흐름을 시뮬레이션하고 종속성을 검증하며 실제 사용자가 영향을 받기 전에 조기 경고를 제공하는 프로브를 설계합니다.
HTTP 업타임 및 가용성 프로브다단계 합성 사용자 여정크론잡 및 스케줄러 헬스체크백업 성공 및 RPO 검증프로브 배치 및 빈도수업 2임계값 및 알림 규칙 정의: 정적 임계값, 속도 기반 알림, 이상 감지, 억제 창정적 제한, 속도 기반 조건, 이상 감지, 억제 창을 사용한 알림 임계값 및 규칙 정의 방법을 배웁니다. 민감도와 노이즈를 균형 있게 조정하며 변화하는 워크로드와 계절 패턴에 적응합니다.
정적 임계값 및 베이스라인변화율 및 파생 알림이상 및 이상치 감지유지보수 및 침묵 창노이즈 줄이기 위한 규칙 튜닝수업 3하이퍼바이저 호스트 및 클라우드 인스턴스 헬스와 청구 알림을 위한 인프라 모니터링하이퍼바이저, 가상 머신, 클라우드 인스턴스를 모니터링하는 방법을 배웁니다. 호스트 자원 헬스, 스토리지 및 네트워크 성능, 관리 서비스, 청구 또는 예산 알림을 통해 장애 및 예상치 못한 클라우드 비용을 방지합니다.
하이퍼바이저 호스트 헬스체크VM 및 컨테이너 자원 사용클라우드 제공자 헬스 지표청구, 예산, 쿼터 알림관리 클라우드 서비스 모니터링수업 4로그 집계 전략: 중앙 syslog, Windows 이벤트 포워딩, 로그 형식, 파싱 고려사항syslog, Windows 이벤트 포워딩, 에이전트를 사용한 로그 중앙화 및 정규화 방법을 이해합니다. 로그 형식 설계, 파싱 및 강화 처리, 유지, 인덱싱, 접근 제어를 계획하여 문제 해결 및 감사를 수행합니다.
중앙 syslog 및 릴레이 설계Windows 이벤트 포워딩 기본구조화된 로그 형식 및 필드파싱, grok, JSON 파이프라인유지, 인덱싱, 아카이빙접근 제어 및 개인정보 우려수업 5알림 플랫폼 및 라우팅: Alertmanager, PagerDuty, OpsGenie, 이메일 및 Slack 통합알림 플랫폼이 이벤트를 수신하고 중복 제거 및 라우팅하며 Alertmanager, PagerDuty, OpsGenie와 같은 이메일, 채팅, 페이징 도구와 통합하는 방식을 연구합니다. 적절한 인원이 신속하고 신뢰성 있게 알림을 받도록 합니다.
Alertmanager 라우팅 트리PagerDuty 및 OpsGenie 기본이메일 및 Slack 알림 설계알림 그룹화 및 중복 제거다채널 전달 및 폴백수업 6모니터링할 핵심 지표: CPU, 메모리, 디스크, I/O, 네트워크, 스왑, 로드 평균, inode 사용가장 중요한 호스트 지표를 배우고 CPU, 메모리, 디스크, I/O, 네트워크, 스왑, 로드, inode 지표를 해석하며, 성능 문제를 조기에 감지하기 위한 합리적인 수집 간격과 베이스라인을 설정합니다.
CPU 활용 및 포화메모리 압력 및 스와핑디스크 용량 및 I/O 지연네트워크 처리량 및 오류로드 평균 및 실행 큐inode 고갈 위험수업 7에스컬레이션 정책, 런북, 알림 중복 제거, 온콜 스케줄링 모범 사례에스컬레이션 정책 설계, 실행 가능한 런북 구축, 알림 중복 제거 구성, 온콜 로테이션 관리를 검토하여 인시던트를 효율적으로 처리하고 알림 피로를 최소화하며 팀 웰빙을 보호합니다.
에스컬레이션 경로 및 계층 정의명확하고 실행 가능한 런북 작성알림 중복 제거 및 노이즈 제어온콜 로테이션 및 핸드오프 규칙인시던트 후 검토 및 학습수업 8모니터링 도구: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – 선택 근거 및 트레이드오프Prometheus, Grafana, Zabbix, Nagios, Datadog와 같은 주요 모니터링 스택을 비교하며, 익스포터, 에이전트, 확장성, 비용, 생태계를 이해하고 조직의 기술 및 제약에 맞는 도구를 선택합니다.
Prometheus 및 node_exporter 사용Grafana 대시보드 및 알림Zabbix 및 Nagios 강점과 제한Datadog 기능 및 가격 영향도구 평가 및 선택 기준수업 9애플리케이션 수준 모니터링: 응답 시간, 오류율, HTTP 상태 코드, 맞춤 애플리케이션 지표애플리케이션 동작 모니터링 기술을 탐구하며, 지연, 오류율, HTTP 상태 코드, 맞춤 지표를 포함합니다. 코드를 인스트루먼트하고 SLI를 정의하며 앱 지표를 인프라 데이터와 상관관계합니다.
요청 지연 및 백분위수오류율 및 실패 패턴HTTP 상태 코드 클래스 추적맞춤 비즈니스 및 도메인 지표인스트루먼테이션 라이브러리 및 SDK수업 10서비스 수준 모니터링: 프로세스/서비스 검사, HTTP(S) 엔드포인트, 데이터베이스 헬스, AD/Kerberos 지연프로세스 검사, HTTP(S) 프로브, 데이터베이스 헬스 테스트, AD 및 Kerberos와 같은 ID 서비스를 통해 서비스 가용성을 모니터링하며, 사용자 가용성과 SLA와 상관관계합니다.
프로세스 및 서비스 감독HTTP(S) 엔드포인트 프로빙데이터베이스 연결 및 지연AD 및 Kerberos 헬스체크SLA 및 SLO에 검사 매핑