Lección 1Estrategias de respaldo: completo vs incremental, respaldos lógicos vs físicos de BD, filesystem vs respaldos de aplicación, políticas de retenciónDiseñe estrategias de respaldo para servidores y bases de datos, comparando respaldos completos e incrementales, métodos lógicos y físicos, y enfoques de nivel filesystem vs aplicación. Defina prácticas de retención, cifrado y verificación.
Planes de respaldo completo vs incrementalRespaldos lógicos vs físicos de BDRespaldos de filesystem y nivel aplicaciónCifrado de respaldos y control de accesoCronogramas de retención y necesidades legalesLección 2Logging centralizado: syslog vs logstash vs fluentd, rotación de logs, retención, estrategias de índice y dimensionamiento para app internaAprenda a centralizar logs para una app interna usando syslog, Logstash o Fluentd. Cubrimos recolección de logs, rotación, retención, estrategias de indexación y dimensionamiento de capacidad para soportar troubleshooting y cumplimiento.
Elegir shippers y coleccionadores de logsDiseñar formatos de logs y metadatosPolíticas de rotación y retención de logsEstrategias de indexación para búsqueda rápidaDimensionar almacenamiento y tasas de ingestaLección 3Diseño de arquitectura de 4 nodos: roles y separación (2 servidores web, 1 worker de app, 1 BD, log/monitor central opcional)Diseñe una arquitectura práctica de cuatro nodos con clara separación de roles. Colocará dos servidores web, un worker de aplicación y un nodo de base de datos, y considerará agregar logging y monitoreo centralizados para observabilidad y resiliencia.
Definir roles para cada nodo de servidorDiseño de capa web y proxies inversosPatrones de worker de aplicación y colasColocación de base de datos y conectividadAgregar logging y monitoreo compartidosLección 4Diseño de red: redes privadas, grupos de seguridad, reglas de firewall, NAT y enrutamiento entre on-prem y cloudAprenda a diseñar redes seguras y resilientes para entornos híbridos. Cubrimos subredes privadas, grupos de seguridad, políticas de firewall, patrones NAT y enrutamiento entre on-premises y cloud para soportar despliegues escalables de servidores.
Diseñar subredes privadas y públicasDiseño de grupos de seguridad y reglas firewallGateways NAT y acceso internet salienteEnrutamiento entre VPCs on-prem y cloudSegmentación de red para capas de appLección 5Gestión de parches: ciclo de vida de paquetes SO, herramientas de gestión de configuración (Ansible, Puppet, Salt), ventanas programadas y planes de rollbackPlanee y opere gestión de parches para sistemas operativos y aplicaciones. Aprenda ciclos de vida de paquetes, usando Ansible, Puppet o Salt, programando ventanas de mantenimiento, probando actualizaciones y preparando planes de rollback y comunicación.
Conceptos de ciclo de vida SO y paquetesUsar Ansible, Puppet o SaltPruebas de parches y entornos de stagingProgramar ventanas de mantenimientoEstrategias de rollback y comunicaciónLección 6Control de acceso y autenticación: gestión de claves SSH, patrones host bastión, jumpboxes, colocación VPN, consideraciones MFADiseñe control de acceso seguro para servidores usando claves SSH, hosts bastión y VPNs. Aprenda gestión de ciclo de vida de claves, patrones jumpbox, integración MFA y logging de acceso administrativo para cumplimiento e respuesta a incidentes.
Generación y rotación de claves SSHHosts bastión y patrones jumpboxColocación VPN y flujos de tráficoIntegrar MFA para acceso adminAuditar y loggear sesiones remotasLección 7Pruebas de restauración: simulacros de recuperación, restauración point-in-time para bases de datos, conceptos RTO/RPO y cómo validar restauracionesEntienda cómo probar que los respaldos son utilizables mediante pruebas estructuradas de restauración. Practicará simulacros de recuperación, restauraciones point-in-time de bases de datos y pasos de validación alineados con objetivos RTO y RPO para servicios internos críticos.
Definir objetivos RTO y RPOPlanear y ejecutar simulacros de recuperaciónProbar restauraciones point-in-time de BDValidar restauraciones a nivel aplicaciónDocumentar y revisar resultados de pruebasLección 8Runbooks y playbooks operativos: crear y almacenar runbooks, gestión de cambios, ejemplos de runbooks para tareas comunesCree runbooks y playbooks operativos efectivos para tareas rutinarias y emergencias. Aprenda estructura, almacenamiento y control de cambios, y revise ejemplos concretos para despliegues, reinicios, triage de incidentes y pasos de rollback.
Estructura de runbook y detalles requeridosVersionado y almacenamiento de runbooksGestión de cambios y aprobacionesRunbooks para tareas de mantenimiento comunesPlaybooks de respuesta a incidentes y escalaciónLección 9Arquitectura básica de monitoreo y alertas: métricas, logs, traces; elegir stack de monitoreo (Prometheus, Grafana, Alertmanager, Nagios, Zabbix)Construya una arquitectura básica de monitoreo y alertas usando métricas, logs y traces. Compare Prometheus, Grafana, Alertmanager, Nagios y Zabbix, y diseñe reglas de alerta, dashboards y rutas de escalación para servicios internos.
Métricas clave, logs y señales de tracingSeleccionar stack de herramientas de monitoreoDiseñar dashboards para operadoresReglas de alerta, umbrales y control de ruidoPolíticas de escalación y flujos on-callLección 10Compensaciones de alta disponibilidad y redundancia para app interna mediana (balanceo de carga, sesiones sticky, stores de sesión)Explore patrones de alta disponibilidad y compensaciones de redundancia para una app interna mediana. Aprenda opciones de balanceo de carga, manejo de sesiones sticky, stores de sesión externos y escenarios de falla para balancear costo, complejidad y uptime.
Identificar requisitos de disponibilidadTipos de balanceadores de carga y health checksSesiones sticky vs diseño statelessStores de sesión externos y cachingModos de falla y degradación graceful