Lección 1Chequeos sintéticos y de disponibilidad: tiempo de actividad, salud de cronjobs, alertas de finalización de respaldosDescubre cómo implementar chequeos sintéticos para tiempo de actividad, verificación de trabajos programados y finalización de respaldos, diseñando sondas que simulen flujos de usuario, validen dependencias y proporcionen advertencia temprana antes de impactar usuarios reales.
Sondas de tiempo de actividad y disponibilidad HTTPViajes sintéticos de usuario multi-pasoChequeos de salud de cronjobs y programadoresValidación de éxito de respaldos y RPOColocación y frecuencia de sondasLección 2Definición de umbrales y reglas de alerta: umbrales estáticos, alertas basadas en tasa, detección de anomalías y ventanas de supresiónAprende a definir umbrales y reglas de alerta usando límites estáticos, condiciones basadas en tasa, detección de anomalías y ventanas de supresión, balanceando sensibilidad y ruido mientras se adapta a cargas cambiantes y patrones estacionales.
Umbrales estáticos y líneas baseAlertas de tasa de cambio y derivadasDetección de anomalías y valores atípicosVentanas de mantenimiento y silencioAjuste de reglas para reducir ruidoLección 3Monitoreo de infraestructura para hosts de hipervisor y salud de instancias en la nube y alertas de facturaciónAprende a monitorear hipervisores, máquinas virtuales e instancias en la nube, incluyendo salud de recursos de host, rendimiento de almacenamiento y red, servicios gestionados y alertas de facturación o presupuesto para prevenir fallos y costos inesperados en la nube.
Chequeos de salud de host de hipervisorUso de recursos de VM y contenedorMétricas de salud de proveedor de nubeAlertas de facturación, presupuesto y cuotaMonitoreo de servicios gestionados en la nubeLección 4Estrategia de agregación de logs: syslog central, reenvío de eventos de Windows, formatos de log, consideraciones de parsingEntiende cómo centralizar y normalizar logs usando syslog, reenvío de eventos de Windows y agentes, diseña formatos de log, maneja parsing y enriquecimiento, y planea retención, indexación y controles de acceso para solución de problemas y auditorías.
Diseño de syslog central y relésConceptos básicos de reenvío de eventos de WindowsFormatos de log estructurados y camposPipelines de parsing, grok y JSONRetención, indexación y archivoPreocupaciones de control de acceso y privacidadLección 5Plataformas de alertas y enrutamiento: Alertmanager, PagerDuty, OpsGenie, integraciones de email y SlackEstudia cómo plataformas de alertas reciben eventos, deduplican y enrutan alertas, e integran con email, chat y herramientas de paginación como Alertmanager, PagerDuty y OpsGenie, asegurando que las personas correctas sean notificadas rápidamente y de manera confiable.
Árboles de enrutamiento de AlertmanagerConceptos básicos de PagerDuty y OpsGenieDiseño de notificaciones de email y SlackAgrupación y deduplicación de alertasEntrega multi-canal y respaldosLección 6Métricas clave a monitorear: CPU, memoria, disco, I/O, red, swap, promedio de carga, uso de inodosAprende qué métricas de host importan más, cómo interpretar indicadores de CPU, memoria, disco, I/O, red, swap, carga e inodos, y cómo establecer intervalos de recolección sensatos y líneas base para detectar problemas de rendimiento tempranamente.
Utilización y saturación de CPUPresión de memoria y swappingCapacidad de disco y latencia de I/ORendimiento y errores de redPromedio de carga y colas de ejecuciónRiesgos de agotamiento de inodosLección 7Políticas de escalación, runbooks, deduplicación de alertas y mejores prácticas de programación de guardiaExamina cómo diseñar políticas de escalación, construir runbooks accionables, configurar deduplicación de alertas y gestionar rotaciones de guardia para que incidentes se manejen eficientemente minimizando fatiga de alertas y protegiendo bienestar del equipo.
Definición de rutas y niveles de escalaciónEscritura de runbooks claros y accionablesControl de deduplicación y ruido de alertasRotación de guardia y reglas de traspasoRevisiones post-incidente y aprendizajeLección 8Herramientas de monitoreo: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – justificación de selección y compensacionesCompara stacks principales de monitoreo como Prometheus, Grafana, Zabbix, Nagios y Datadog, entendiendo exportadores, agentes, escalabilidad, costo, ecosistema y cómo elegir herramientas que se ajusten a habilidades y restricciones de tu organización.
Uso de Prometheus y node_exporterPaneles y alertas de GrafanaFortalezas y límites de Zabbix y NagiosCaracterísticas e impacto de precios de DatadogCriterios para evaluación y elección de herramientasLección 9Monitoreo a nivel de aplicación: tiempos de respuesta, tasas de error, códigos de estado HTTP, métricas personalizadas de aplicaciónExplora técnicas para monitorear comportamiento de aplicaciones, incluyendo latencia, tasas de error, códigos de estado HTTP y métricas personalizadas, y aprende a instrumentar código, definir SLIs y correlacionar métricas de app con datos de infraestructura.
Latencia de solicitud y percentilesTasas de error y patrones de fallaRastreo de clases de códigos de estado HTTPMétricas personalizadas de negocio y dominioLibrerías y SDKs de instrumentaciónLección 10Monitoreo a nivel de servicio: chequeos de proceso/servicio, endpoints HTTP(S), salud de base de datos, latencia AD/KerberosSe enfoca en monitoreo de disponibilidad de servicios mediante chequeos de proceso, sondas HTTP(S), pruebas de salud de base de datos y servicios de identidad como AD y Kerberos, correlacionando chequeos con confiabilidad orientada a usuario y SLAs.
Supervisión de proceso y servicioSondaje de endpoints HTTP(S)Conectividad y latencia de base de datosChequeos de salud de AD y KerberosMapeo de chequeos a SLAs y SLOs