Lección 1Chequeos sintéticos y de disponibilidad: uptime, salud de cronjobs, alertas de completitud de backupsDescubre cómo implementar chequeos sintéticos para uptime, verificación de jobs programados y completitud de backups, diseñando sondas que simulen flujos de usuario, validen dependencias y provean advertencia temprana antes de impactar usuarios reales.
Sondas de uptime y disponibilidad HTTPJornadas sintéticas de usuario multi-pasoChequeos de salud de cronjobs y schedulersValidación de éxito de backups y RPOColocación y frecuencia de sondasLección 2Definición de umbrales y reglas de alerta: umbrales estáticos, alertas basadas en tasa, detección de anomalías y ventanas de supresiónAprende a definir umbrales y reglas de alerta usando límites estáticos, condiciones basadas en tasa, detección de anomalías y ventanas de supresión, balanceando sensibilidad y ruido mientras se adapta a cargas cambiantes y patrones estacionales.
Umbrales estáticos y baselinesAlertas de tasa de cambio y derivadasDetección de anomalías y outliersVentanas de mantenimiento y silencioTuning de reglas para reducir ruidoLección 3Monitoreo de infraestructura para hosts hipervisor y salud de instancias en la nube y alertas de billingAprende a monitorear hipervisores, máquinas virtuales e instancias en la nube, incluyendo salud de recursos de host, rendimiento de storage y red, servicios gestionados y alertas de billing o presupuesto para prevenir outages y costos inesperados en la nube.
Chequeos de salud de hosts hipervisorUso de recursos de VM y contenedoresMétricas de salud de proveedores de nubeAlertas de billing, presupuesto y cuotasMonitoreo de servicios gestionados en la nubeLección 4Estrategia de agregación de logs: syslog central, Windows Event Forwarding, formatos de log, consideraciones de parsingEntiende cómo centralizar y normalizar logs usando syslog, Windows Event Forwarding y agentes, diseñar formatos de log, manejar parsing y enriquecimiento, y planificar retención, indexación y controles de acceso para troubleshooting y auditorías.
Diseño de syslog central y relayBásicos de Windows Event ForwardingFormatos de log estructurados y camposPipelines de parsing, grok y JSONRetención, indexación y archivoControles de acceso y preocupaciones de privacidadLección 5Plataformas de alerting y routing: Alertmanager, PagerDuty, OpsGenie, integraciones email y SlackEstudia cómo plataformas de alerting reciben eventos, deduplican y routan alertas, e integran con email, chat y herramientas de paging como Alertmanager, PagerDuty y OpsGenie, asegurando que las personas correctas sean notificadas rápido y confiablemente.
Árboles de routing de AlertmanagerBásicos de PagerDuty y OpsGenieDiseño de notificaciones email y SlackAgrupación y deduplicación de alertasEntrega multi-canal y fallbacksLección 6Métricas clave a monitorear: CPU, memoria, disco, I/O, red, swap, load average, uso de inodesAprende qué métricas de host importan más, cómo interpretar indicadores de CPU, memoria, disco, I/O, red, swap, load e inodes, y cómo setear intervalos de recolección y baselines sensatos para detectar issues de performance tempranamente.
Utilización y saturación de CPUPresión de memoria y swappingCapacidad de disco y latencia I/OThroughput de red y erroresLoad average y colas de ejecuciónRiesgos de agotamiento de inodesLección 7Políticas de escalamiento, runbooks, deduplicación de alertas y mejores prácticas de scheduling on-callExamina cómo diseñar políticas de escalamiento, construir runbooks accionables, configurar deduplicación de alertas y gestionar rotaciones on-call para que incidentes se manejen eficientemente minimizando fatiga de alertas y protegiendo bienestar del equipo.
Definición de paths y tiers de escalamientoEscritura de runbooks claros y accionablesControl de deduplicación y ruido de alertasRotación on-call y reglas de handoffRevisiones post-incidente y aprendizajeLección 8Herramientas de monitoreo: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – rationale de selección y tradeoffsCompara stacks mayores de monitoreo como Prometheus, Grafana, Zabbix, Nagios y Datadog, entendiendo exporters, agentes, escalabilidad, costo, ecosistema y cómo elegir herramientas que encajen con habilidades y constraints de tu organización.
Uso de Prometheus y node_exporterPaneles y alerting de GrafanaFortalezas y límites de Zabbix y NagiosCaracterísticas e impacto de pricing de DatadogCriterios para evaluación y elección de herramientasLección 9Monitoreo a nivel de aplicación: tiempos de respuesta, tasas de error, códigos de estado HTTP, métricas custom de aplicaciónExplora técnicas para monitorear comportamiento de aplicaciones, incluyendo latencia, tasas de error, códigos de estado HTTP y métricas custom, y aprende a instrumentar código, definir SLIs y correlacionar métricas de app con datos de infraestructura.
Latencia de requests y percentilesTasas de error y patrones de fallosRastreo de clases de códigos de estado HTTPMétricas custom de negocio y dominioLibrerías y SDKs de instrumentaciónLección 10Monitoreo a nivel de servicio: chequeos de proceso/servicio, endpoints HTTP(S), salud de base de datos, latencia AD/KerberosSe enfoca en monitoreo de disponibilidad de servicios mediante chequeos de procesos, sondas HTTP(S), tests de salud de base de datos y servicios de identidad como AD y Kerberos, correlacionando chequeos con confiabilidad facing-user y SLAs.
Supervisión de procesos y serviciosSondaje de endpoints HTTP(S)Conectividad y latencia de base de datosChequeos de salud de AD y KerberosMapeo de chequeos a SLAs y SLOs