Lección 1Chequeos sintéticos y de disponibilidad: uptime, salud de cronjobs, alertas de finalización de respaldosDescubre cómo implementar chequeos sintéticos para uptime, verificación de trabajos programados y finalización de respaldos, diseñando sondas que simulen flujos de usuario, validen dependencias y proporcionen advertencia temprana antes de que los usuarios reales se vean impactados.
Sondas de uptime y disponibilidad HTTPViajes de usuario sintéticos multi-pasoChequeos de salud de cronjob y programadoresValidación de éxito de respaldo y RPOColocación y frecuencia de sondasLección 2Definición de umbrales y reglas de alerta: umbrales estáticos, alertas basadas en tasa, detección de anomalías y ventanas de supresiónAprende a definir umbrales y reglas de alerta usando límites estáticos, condiciones basadas en tasa, detección de anomalías y ventanas de supresión, equilibrando sensibilidad y ruido mientras se adapta a cargas cambiantes y patrones estacionales.
Umbrales estáticos y líneas baseAlertas de tasa de cambio y derivadasDetección de anomalías y valores atípicosVentanas de mantenimiento y silencioAjuste de reglas para reducir ruidoLección 3Monitoreo de infraestructura para hosts de hipervisor y salud de instancias en la nube y alertas de facturaciónAprende a monitorear hipervisores, máquinas virtuales e instancias en la nube, incluyendo salud de recursos de host, rendimiento de almacenamiento y red, servicios gestionados y alertas de facturación o presupuesto para prevenir fallos y costos inesperados en la nube.
Chequeos de salud de host de hipervisorUso de recursos de VM y contenedorMétricas de salud de proveedor de nubeAlertas de facturación, presupuesto y cuotaMonitoreo de servicios gestionados en la nubeLección 4Estrategia de agregación de logs: syslog central, reenvío de eventos de Windows, formatos de log, consideraciones de parsingEntiende cómo centralizar y normalizar logs usando syslog, reenvío de eventos de Windows y agentes, diseñar formatos de log, manejar parsing y enriquecimiento, y planificar retención, indexación y controles de acceso para solución de problemas y auditorías.
Diseño de syslog central y relayConceptos básicos de reenvío de eventos de WindowsFormatos de log estructurados y camposPipelines de parsing, grok y JSONRetención, indexación y archivoPreocupaciones de control de acceso y privacidadLección 5Plataformas de alertas y enrutamiento: Alertmanager, PagerDuty, OpsGenie, integraciones de email y SlackEstudia cómo plataformas de alertas reciben eventos, deduplican y enrutan alertas, e integran con email, chat y herramientas de paging como Alertmanager, PagerDuty y OpsGenie, asegurando que las personas correctas sean notificadas rápidamente y de manera confiable.
Árboles de enrutamiento de AlertmanagerConceptos básicos de PagerDuty y OpsGenieDiseño de notificaciones de email y SlackAgrupación y deduplicación de alertasEntrega multi-canal y fallbacksLección 6Métricas clave a monitorear: CPU, memoria, disco, I/O, red, swap, promedio de carga, uso de inodosAprende qué métricas de host importan más, cómo interpretar indicadores de CPU, memoria, disco, I/O, red, swap, carga e inodos, y cómo establecer intervalos de recolección sensatos y líneas base para detectar problemas de rendimiento tempranamente.
Utilización y saturación de CPUPresión de memoria y swappingCapacidad de disco y latencia de I/ORendimiento y errores de redPromedio de carga y colas de ejecuciónRiesgos de agotamiento de inodosLección 7Políticas de escalación, runbooks, deduplicación de alertas y mejores prácticas de programación de guardiaExamina cómo diseñar políticas de escalación, construir runbooks accionables, configurar deduplicación de alertas y gestionar rotaciones de guardia para que los incidentes se manejen eficientemente minimizando fatiga de alertas y protegiendo el bienestar del equipo.
Definición de rutas y niveles de escalaciónEscritura de runbooks claros y accionablesControl de deduplicación y ruido de alertasRotación de guardia y reglas de traspasoRevisiones post-incidente y aprendizajeLección 8Herramientas de monitoreo: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – justificación de selección y tradeoffsCompara stacks mayores de monitoreo como Prometheus, Grafana, Zabbix, Nagios y Datadog, entendiendo exportadores, agentes, escalabilidad, costo, ecosistema y cómo elegir herramientas que se ajusten a las habilidades y restricciones de tu organización.
Uso de Prometheus y node_exporterPaneles y alertas de GrafanaFortalezas y límites de Zabbix y NagiosCaracterísticas e impacto de precios de DatadogCriterios para evaluación y elección de herramientasLección 9Monitoreo a nivel de aplicación: tiempos de respuesta, tasas de error, códigos de estado HTTP, métricas personalizadas de aplicaciónExplora técnicas para monitorear comportamiento de aplicaciones, incluyendo latencia, tasas de error, códigos de estado HTTP y métricas personalizadas, y aprende a instrumentar código, definir SLIs y correlacionar métricas de app con datos de infraestructura.
Latencia de solicitud y percentilesTasas de error y patrones de fallaRastreo de clases de códigos de estado HTTPMétricas personalizadas de negocio y dominioLibrerías y SDKs de instrumentaciónLección 10Monitoreo a nivel de servicio: chequeos de proceso/servicio, endpoints HTTP(S), salud de base de datos, latencia AD/KerberosSe enfoca en monitoreo de disponibilidad de servicios a través de chequeos de proceso, sondas HTTP(S), pruebas de salud de base de datos y servicios de identidad como AD y Kerberos, correlacionando estos chequeos con confiabilidad orientada al usuario y SLAs.
Supervisión de proceso y servicioSondaje de endpoints HTTP(S)Conectividad y latencia de base de datosChequeos de salud de AD y KerberosMapeo de chequeos a SLAs y SLOs