Lección 1Chequeos sintéticos y de disponibilidad: uptime, salud de cronjobs, alertas de finalización de backupDescubre cómo implementar chequeos sintéticos para uptime, verificación de trabajos programados y finalización de backup, diseñando sondas que simulen flujos de usuario, validen dependencias y proporcionen advertencia temprana antes de que los usuarios reales se vean afectados.
Sondas de uptime y disponibilidad HTTPViajes sintéticos de usuario multi-pasoChequeos de salud de cronjob y programadorValidación de éxito de backup y RPOColocación y frecuencia de sondasLección 2Definición de umbrales y reglas de alerta: umbrales estáticos, alertas basadas en tasa, detección de anomalías y ventanas de supresiónAprende a definir umbrales y reglas de alerta usando límites estáticos, condiciones basadas en tasa, detección de anomalías y ventanas de supresión, equilibrando sensibilidad y ruido mientras se adapta a cargas cambiantes y patrones estacionales.
Umbrales estáticos y baselinesAlertas de tasa de cambio y derivadasDetección de anomalías y outliersVentanas de mantenimiento y silencioAjuste de reglas para reducir ruidoLección 3Monitoreo de infraestructura para hosts hipervisor y salud de instancias en la nube y alertas de facturaciónAprende a monitorear hipervisores, máquinas virtuales e instancias en la nube, incluyendo salud de recursos de host, rendimiento de almacenamiento y red, servicios gestionados y alertas de facturación o presupuesto para prevenir caídas y costes inesperados en la nube.
Chequeos de salud de host hipervisorUso de recursos de VM y contenedorMétricas de salud de proveedor de nubeAlertas de facturación, presupuesto y cuotaMonitoreo de servicios gestionados en la nubeLección 4Estrategia de agregación de logs: syslog central, Windows Event Forwarding, formatos de log, consideraciones de parsingEntiende cómo centralizar y normalizar logs usando syslog, Windows Event Forwarding y agentes, diseñar formatos de log, manejar parsing y enriquecimiento, y planificar retención, indexación y controles de acceso para resolución de problemas y auditorías.
Diseño de syslog central y relayConceptos básicos de Windows Event ForwardingFormatos de log estructurados y camposPipelines de parsing, grok y JSONRetención, indexación y archivoControles de acceso y preocupaciones de privacidadLección 5Plataformas de alertas y enrutamiento: Alertmanager, PagerDuty, OpsGenie, integraciones email y SlackEstudia cómo las plataformas de alertas reciben eventos, deduplican y enrutan alertas, e integran con email, chat y herramientas de paging como Alertmanager, PagerDuty y OpsGenie, asegurando que las personas adecuadas sean notificadas rápidamente y de forma fiable.
Árboles de enrutamiento AlertmanagerConceptos básicos de PagerDuty y OpsGenieDiseño de notificaciones email y SlackAgrupación y deduplicación de alertasEntrega multi-canal y fallbacksLección 6Métricas clave a monitorear: CPU, memoria, disco, I/O, red, swap, promedio de carga, uso de inodesAprende qué métricas de host importan más, cómo interpretar indicadores de CPU, memoria, disco, I/O, red, swap, carga e inodes, y cómo establecer intervalos de recolección y baselines sensatos para detectar problemas de rendimiento tempranamente.
Utilización y saturación de CPUPresión de memoria y swappingCapacidad de disco y latencia I/ORendimiento y errores de redPromedio de carga y colas de ejecuciónRiesgos de agotamiento de inodesLección 7Políticas de escalada, runbooks, deduplicación de alertas y mejores prácticas de programación on-callExamina cómo diseñar políticas de escalada, construir runbooks accionables, configurar deduplicación de alertas y gestionar rotaciones on-call para que los incidentes se manejen eficientemente minimizando fatiga de alertas y protegiendo el bienestar del equipo.
Definición de rutas y niveles de escaladaEscritura de runbooks claros y accionablesDeduplicación de alertas y control de ruidoRotación on-call y reglas de traspasoRevisiones post-incidente y aprendizajeLección 8Herramientas de monitoreo: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – justificación de selección y tradeoffsCompara stacks principales de monitoreo como Prometheus, Grafana, Zabbix, Nagios y Datadog, entendiendo exporters, agentes, escalabilidad, coste, ecosistema y cómo elegir herramientas que se ajusten a las habilidades y restricciones de tu organización.
Uso de Prometheus y node_exporterPaneles y alertas de GrafanaFortalezas y límites de Zabbix y NagiosCaracterísticas e impacto de precios de DatadogCriterios para evaluación y elección de herramientasLección 9Monitoreo a nivel de aplicación: tiempos de respuesta, tasas de error, códigos de estado HTTP, métricas personalizadas de aplicaciónExplora técnicas para monitorear comportamiento de aplicaciones, incluyendo latencia, tasas de error, códigos de estado HTTP y métricas personalizadas, y aprende a instrumentar código, definir SLIs y correlacionar métricas de app con datos de infraestructura.
Latencia de solicitud y percentilesTasas de error y patrones de falloSeguimiento de clases de códigos de estado HTTPMétricas personalizadas de negocio y dominioBibliotecas y SDKs de instrumentaciónLección 10Monitoreo a nivel de servicio: chequeos de proceso/servicio, endpoints HTTP(S), salud de base de datos, latencia AD/KerberosSe centra en monitorear disponibilidad de servicios mediante chequeos de proceso, sondas HTTP(S), pruebas de salud de base de datos y servicios de identidad como AD y Kerberos, correlacionando estos chequeos con fiabilidad orientada al usuario y SLAs.
Supervisión de proceso y servicioSondaje de endpoints HTTP(S)Conectividad y latencia de base de datosChequeos de salud AD y KerberosMapeo de chequeos a SLAs y SLOs