Lección 1Estrategias de respaldo: completo vs incremental, respaldos lógicos vs físicos de BD, filesystem vs respaldos de aplicación, políticas de retenciónDiseña estrategias de respaldo para servidores y bases de datos, comparando respaldos completos e incrementales, métodos lógicos y físicos, y enfoques a nivel filesystem vs aplicación. Define retención, cifrado y prácticas de verificación.
Planes de respaldo completo vs incrementalRespaldos lógicos vs físicos de BDRespaldos a nivel filesystem y aplicaciónCifrado de respaldos y control de accesoCronogramas de retención y necesidades legalesLección 2Logging centralizado: syslog vs logstash vs fluentd, rotación de logs, retención, estrategias de indexación y dimensionamiento para app internaAprende a centralizar logs para una app interna usando syslog, Logstash o Fluentd. Cubrimos recolección de logs, rotación, retención, estrategias de indexación y dimensionamiento de capacidad para soportar troubleshooting y cumplimiento.
Elegir shippers y colectores de logsDiseñar formatos de log y metadatosPolíticas de rotación y retención de logsEstrategias de indexación para búsqueda rápidaDimensionar almacenamiento y tasas de ingestaLección 3Diseñar arquitectura de 4 nodos: roles y separación (2 servidores web, 1 worker de app, 1 BD, log/monitor central opcional)Diseña una arquitectura práctica de cuatro nodos con clara separación de roles. Colocarás dos servidores web, un worker de aplicación y un nodo de base de datos, y considerarás agregar logging y monitoreo centralizado para observabilidad y resiliencia.
Definir roles para cada nodo servidorDiseño de capa web y proxies inversosPatrones de worker de aplicación y colasColocación de base de datos y conectividadAgregar logging y monitoreo compartidoLección 4Diseño de red: redes privadas, grupos de seguridad, reglas de firewall, NAT y enrutamiento entre on-prem y cloudAprende a diseñar redes seguras y resilientes para entornos híbridos. Cubrimos subredes privadas, grupos de seguridad, políticas de firewall, patrones NAT y enrutamiento entre on-premises y cloud para soportar despliegues escalables de servidores.
Diseñar subredes privadas y públicasDiseño de grupos de seguridad y reglas firewallGateways NAT y acceso internet salienteEnrutamiento entre VPCs on-prem y cloudSegmentación de red para capas de appLección 5Gestión de parches: ciclo de vida de paquetes SO, herramientas de gestión de configuración (Ansible, Puppet, Salt), ventanas programadas y planes de rollbackPlanifica y opera gestión de parches para sistemas operativos y aplicaciones. Aprende ciclos de vida de paquetes, usando Ansible, Puppet o Salt, programando ventanas de mantenimiento, probando actualizaciones y preparando planes de rollback y comunicación.
Conceptos de ciclo de vida SO y paquetesUsar Ansible, Puppet o SaltPruebas de parches y entornos de stagingProgramar ventanas de mantenimientoEstrategias de rollback y comunicaciónLección 6Control de acceso y autenticación: gestión de claves SSH, patrones host bastión, jumpboxes, colocación VPN, consideraciones MFADiseña control de acceso seguro para servidores usando claves SSH, hosts bastión y VPNs. Aprende gestión de ciclo de vida de claves, patrones jumpbox, integración MFA y logging de acceso administrativo para cumplimiento y respuesta a incidentes.
Generación y rotación de claves SSHPatrones hosts bastión y jumpboxColocación VPN y flujos de tráficoIntegrar MFA para acceso adminAuditar y loggear sesiones remotasLección 7Pruebas de restauración: simulacros de recuperación, restauración point-in-time para bases de datos, conceptos RTO/RPO y validación de restauracionesEntiende cómo probar que los respaldos son utilizables mediante pruebas estructuradas de restauración. Practicarás simulacros de recuperación, restauraciones point-in-time de bases de datos y pasos de validación alineados con objetivos RTO y RPO para servicios internos críticos.
Definir objetivos RTO y RPOPlanificar y ejecutar simulacros de recuperaciónProbar restauraciones point-in-time de BDValidar restauraciones a nivel aplicaciónDocumentar y revisar resultados de pruebasLección 8Runbooks y playbooks operativos: crear y almacenar runbooks, gestión de cambios, ejemplos de runbooks para tareas comunesCrea runbooks y playbooks operativos efectivos para tareas rutinarias y emergencias. Aprende estructura, almacenamiento y control de cambios, y revisa ejemplos concretos para despliegues, reinicios, triage de incidentes y pasos de rollback.
Estructura de runbook y detalles requeridosVersionado y almacenamiento de runbooksGestión de cambios y aprobacionesRunbooks para tareas de mantenimiento comunesPlaybooks de respuesta a incidentes y escalaciónLección 9Arquitectura básica de monitoreo y alertas: métricas, logs, traces; elegir stack de monitoreo (Prometheus, Grafana, Alertmanager, Nagios, Zabbix)Construye una arquitectura básica de monitoreo y alertas usando métricas, logs y traces. Compara Prometheus, Grafana, Alertmanager, Nagios y Zabbix, y diseña reglas de alerta, dashboards y rutas de escalación para servicios internos.
Métricas clave, logs y señales de tracingSeleccionar stack de herramientas de monitoreoDiseñar dashboards para operadoresReglas de alerta, umbrales y control de ruidoPolíticas de escalación y flujos on-callLección 10Compensaciones de alta disponibilidad y redundancia para app interna mediana (balanceo de carga, sesiones sticky, stores de sesión)Explora patrones de alta disponibilidad y compensaciones de redundancia para app interna mediana. Aprende opciones de balanceo de carga, manejo de sesiones sticky, stores de sesión externos y escenarios de falla para balancear costo, complejidad y uptime.
Identificar requisitos de disponibilidadTipos de balanceadores de carga y health checksSesiones sticky vs diseño statelessStores de sesión externos y cachingModos de falla y degradación graceful