Lección 1Estrategias de copia de seguridad: completa vs incremental, lógicas vs físicas DB, sistema de archivos vs aplicación, políticas de retenciónDiseña estrategias de copia de seguridad para servidores y bases de datos, comparando copias completas e incrementales, métodos lógicos y físicos, y enfoques a nivel sistema de archivos vs aplicación. Define prácticas de retención, cifrado y verificación.
Planes de copia completa vs incrementalCopias DB lógicas vs físicasCopias a nivel sistema de archivos y aplicaciónCifrado de copias y control de accesoProgramas de retención y necesidades legalesLección 2Registro centralizado: syslog vs logstash vs fluentd, rotación de logs, retención, estrategias de índice y dimensionamiento para app internaAprende a centralizar logs para una app interna usando syslog, Logstash o Fluentd. Cubrimos recolección de logs, rotación, retención, estrategias de indexado y dimensionamiento de capacidad para soportar resolución de problemas y cumplimiento.
Elegir emisores y recolectores de logsDiseñar formatos de log y metadatosPolíticas de rotación y retención de logsEstrategias de indexado para búsqueda rápidaDimensionar almacenamiento y tasas de ingestaLección 3Diseñar arquitectura de 4 nodos: roles y separación (2 servidores web, 1 worker app, 1 DB, log/monitor central opcional)Diseña una arquitectura práctica de cuatro nodos con clara separación de roles. Colocarás dos servidores web, un worker de aplicación y un nodo de base de datos, considerando añadir registro y monitoreo centralizados para observabilidad y resiliencia.
Definir roles para cada nodo servidorDiseño de capa web y proxies inversosPatrones de worker de aplicación y colasColocación de base de datos y conectividadAñadir registro y monitoreo compartidosLección 4Diseño de red: redes privadas, grupos de seguridad, reglas de firewall, NAT y enrutamiento entre on-prem y cloudAprende a diseñar redes seguras y resilientes para entornos híbridos. Cubrimos subredes privadas, grupos de seguridad, políticas de firewall, patrones NAT y enrutamiento entre on-premises y cloud para soportar despliegues escalables de servidores.
Diseñar subredes privadas y públicasDiseño de grupos de seguridad y reglas firewallGateways NAT y acceso internet salienteEnrutamiento entre VPCs on-prem y cloudSegmentación de red para capas de appLección 5Gestión de parches: ciclo de vida de paquetes SO, herramientas de gestión de configuración (Ansible, Puppet, Salt), ventanas programadas y planes de rollbackPlanifica y opera gestión de parches para sistemas operativos y aplicaciones. Aprende ciclos de vida de paquetes, usando Ansible, Puppet o Salt, programando ventanas de mantenimiento, probando actualizaciones y preparando planes de rollback y comunicación.
Conceptos de ciclo de vida SO y paquetesUsar Ansible, Puppet o SaltPruebas de parches y entornos de stagingProgramar ventanas de mantenimientoEstrategias de rollback y comunicaciónLección 6Control de acceso y autenticación: gestión de claves SSH, patrones host bastión, jumpboxes, colocación VPN, consideraciones MFADiseña control de acceso seguro para servidores usando claves SSH, hosts bastión y VPNs. Aprende gestión de ciclo de vida de claves, patrones jumpbox, integración MFA y registro de acceso administrativo para cumplimiento y respuesta a incidentes.
Generación y rotación de claves SSHPatrones hosts bastión y jumpboxColocación VPN y flujos de tráficoIntegrar MFA para acceso adminAuditar y registrar sesiones remotasLección 7Pruebas de restauración: simulacros de recuperación, restauración punto-en-tiempo para bases de datos, conceptos RTO/RPO y validación de restauracionesComprende cómo probar que las copias de seguridad son utilizables mediante pruebas estructuradas de restauración. Practicarás simulacros de recuperación, restauraciones punto-en-tiempo de bases de datos y pasos de validación alineados con objetivos RTO y RPO para servicios internos críticos.
Definir objetivos RTO y RPOPlanificar y ejecutar simulacros de recuperaciónProbar restauraciones punto-en-tiempo de DBValidar restauraciones a nivel aplicaciónDocumentar y revisar resultados de pruebasLección 8Runbooks y playbooks operativos: crear y almacenar runbooks, gestión de cambios, ejemplos de runbooks para tareas comunesCrea runbooks y playbooks operativos efectivos para tareas rutinarias y de emergencia. Aprende estructura, almacenamiento y control de cambios, y revisa ejemplos concretos para despliegues, reinicios, triaje de incidentes y pasos de rollback.
Estructura de runbook y detalles requeridosVersionado y almacenamiento de runbooksGestión de cambios y aprobacionesRunbooks para tareas de mantenimiento comunesPlaybooks de respuesta a incidentes y escaladoLección 9Arquitectura básica de monitoreo y alertado: métricas, logs, trazas; elegir pila de monitoreo (Prometheus, Grafana, Alertmanager, Nagios, Zabbix)Construye una arquitectura básica de monitoreo y alertado usando métricas, logs y trazas. Compara Prometheus, Grafana, Alertmanager, Nagios y Zabbix, y diseña reglas de alerta, tableros y rutas de escalado para servicios internos.
Métricas clave, logs y señales de trazadoSeleccionar pila de herramientas de monitoreoDiseñar tableros para operadoresReglas de alerta, umbrales y control de ruidoPolíticas de escalado y flujos on-callLección 10Compensaciones de alta disponibilidad y redundancia para app interna mediana (balanceo de carga, sesiones persistentes, almacenes de sesión)Explora patrones de alta disponibilidad y compensaciones de redundancia para una app interna mediana. Aprende opciones de balanceo de carga, manejo de sesiones persistentes, almacenes de sesión externos y escenarios de fallo para equilibrar coste, complejidad y tiempo de actividad.
Identificar requisitos de disponibilidadTipos de balanceadores de carga y chequeos de saludSesiones persistentes vs diseño sin estadoAlmacenes de sesión externos y cachéModos de fallo y degradación elegante