Lección 1Verificaciones de dispositivos de red: estado de interfaces, CPU/memoria de switches/firewall, utilización de tabla de sesiones, contadores de aciertos ACLComprende cómo monitorear la salud de switches, routers y firewalls, incluyendo estado de interfaces, CPU del plano de control, presión de memoria, tablas de sesiones y contadores ACL, para detectar congestión, errores de políticas y riesgos de capacidad antes de que ocurran fallos.
Verificación de estado de enlace, dúplex y velocidadMonitoreo de CPU y memoria de switches y firewallsUtilización de tabla de sesiones y planificación de capacidadContadores de aciertos ACL y patrones de tráfico inesperadosLección 2Verificaciones de VPN y autenticación: estado de túneles, sesiones concurrentes, latencia de autenticación, vencimiento de certificadosExamina las métricas de salud de VPN y autenticación, incluyendo estado de túneles, sesiones concurrentes, latencia de autenticación y vencimiento de certificados, para asegurar acceso remoto seguro y evitar fallos repentinos por capacidad o problemas de PKI.
Estado arriba/abajo de túneles y verificaciones de keepaliveSesiones VPN concurrentes y límites de licenciasLatencia de autenticación y almacenes de identidad backendMonitoreo de vencimiento de certificados y ventanas de renovaciónLección 3Métricas de memoria: usada vs disponible, fallos de página, uso de swap y detección de fugas de memoriaExplora patrones de uso de memoria, incluyendo memoria usada versus disponible, caché y buffers, fallos de página y actividad de swap, y aprende a distinguir caché normal de presión real, detectar fugas y ajustar umbrales de alertas de manera segura.
Interpretación de usada, libre, caché y buffersFallos de página mayores vs menores e impacto en rendimientoUso de swap, swappiness y umbrales de alertaPatrones y herramientas para detección de fugas de memoriaLección 4Métricas de red: errores de interfaz, utilización de ancho de banda, pérdida de paquetes, RTT, caídas de NIC y problemas de MTUAnaliza métricas clave de rendimiento de red como errores de interfaz, utilización de ancho de banda, pérdida de paquetes, RTT y caídas de NIC, y aprende cómo los desajustes de MTU y congestión afectan el rendimiento de aplicaciones y la experiencia del usuario.
Errores de interfaz, descartes y fallos físicosUtilización de ancho de banda, ráfagas y sobre-suscripciónPérdida de paquetes, jitter e impacto en aplicacionesLíneas base de RTT y detección de cambios de rutaDesajustes de MTU, fragmentación y agujeros negrosLección 5Verificaciones de aplicaciones y web: tiempo de respuesta HTTP(S), códigos de estado, tiempos de handshake TLS, transacciones sintéticasAprende a monitorear endpoints de aplicaciones y web usando códigos de estado HTTP, tiempos de respuesta, métricas de handshake TLS y transacciones sintéticas, asegurando que los recorridos de usuario permanezcan rápidos, seguros y resilientes bajo carga cambiante.
Seguimiento de códigos de estado HTTP y tasas de errorTiempo de respuesta de extremo a extremo y vistas estilo ApdexTiempo de handshake TLS y problemas de certificadosRecorridos de usuario sintéticos y scripts de transaccionesLección 6Métricas a nivel de servidor: CPU, carga por núcleo, longitud de cola de ejecución, cambios de contexto y lo que revelanAprende cómo la utilización de CPU, carga por núcleo, longitud de cola de ejecución y cambios de contexto describen saturación de servidor, presión de programación y sobrecarga del kernel, y cómo establecer umbrales, correlacionar picos y evitar falsos positivos en alertas.
Interpretación de utilización de CPU general vs por núcleoLongitud de cola de ejecución y umbrales de saturación de CPUCambios de contexto y sobrecarga de programación del kernelIdentificación de cargas limitadas por CPU vs limitadas por E/SLección 7Métricas de base de datos: conexiones activas, consultas lentas, latencia promedio de consulta, ratio de acierto de caché, bloqueos y deadlocksAdéntrate en indicadores clave de salud de base de datos como conexiones activas, consultas lentas, latencia promedio, ratio de acierto de caché y comportamiento de bloqueos, y aprende a usar estas métricas para encontrar cuellos de botella, optimizar consultas y prevenir deadlocks.
Seguimiento de piscinas de conexiones activas e inactivasRegistros de consultas lentas y distribuciones de latenciaRatio de acierto de caché de buffer y fundamentos de optimizaciónEspera de bloqueos, sesiones bloqueadas y deadlocksLección 8Salud de la pila de monitoreo: disponibilidad de recolectores, uso de almacenamiento de retención, salud del motor de alertasComprende cómo monitorear la pila de monitoreo misma, incluyendo tiempo de actividad de recolectores, acumulaciones de colas, uso de almacenamiento de series temporales y rendimiento del motor de alertas, para que las brechas de métricas y alertas retrasadas se detecten rápidamente.
Disponibilidad de recolectores y tasas de éxito de scrapingAcumulaciones de colas, caídas y brechas de muestreoCapacidad de almacenamiento de retención y control de cardinalidadLatencia del motor de alertas y errores de evaluación de reglasLección 9Verificaciones de almacenamiento y disco: espacio libre, espera de E/S, latencia (await), rendimiento, agotamiento de inodosRevisa métricas esenciales de almacenamiento, incluyendo espacio libre, uso de inodos, espera de E/S, latencia y rendimiento. Aprende a detectar saturación, vecinos ruidosos y agotamiento de sistema de archivos, y cómo dimensionar discos y establecer alertas significativas.
Espacio libre, tendencias de crecimiento y niveles de alertaAgotamiento de inodos y cargas de trabajo con muchos archivos pequeñosEspera de E/S y su relación con tiempo inactivo de CPULatencia de lectura/escritura, IOPS y límites de rendimiento