Lección 1Estrategias de backup: full vs incremental, backups lógicos vs físicos de DB, filesystem vs backups de aplicación, políticas de retenciónDiseñá estrategias de backup para servidores y bases de datos, comparando backups completos e incrementales, métodos lógicos y físicos, y enfoques a nivel filesystem vs aplicación. Definí retención, cifrado y prácticas de verificación.
Planes de backup full vs incrementalBackups lógicos vs físicos de DBBackups a nivel filesystem y aplicaciónCifrado de backup y control de accesoCronogramas de retención y necesidades legalesLección 2Logging centralizado: syslog vs logstash vs fluentd, rotación de logs, retención, estrategias de indexado y dimensionamiento para app internaAprendé a centralizar logs para una app interna usando syslog, Logstash o Fluentd. Cubrimos recolección de logs, rotación, retención, estrategias de indexado y dimensionamiento de capacidad para soportar troubleshooting y cumplimiento.
Elegir shippers y colectores de logsDiseñar formatos de log y metadatosPolíticas de rotación y retención de logsEstrategias de indexado para búsqueda rápidaDimensionar almacenamiento y tasas de ingestaLección 3Diseñar arquitectura de 4 nodos: roles y separación (2 servidores web, 1 worker de app, 1 DB, log/monitor central opcional)Diseñá una arquitectura práctica de cuatro nodos con clara separación de roles. Colocarás dos servidores web, un worker de aplicación y un nodo de base de datos, considerando agregar logging y monitoreo centralizado para observabilidad y resiliencia.
Definir roles para cada nodo servidorDiseño del tier web y reverse proxiesPatrones de worker de aplicación y queuesColocación de base de datos y conectividadAgregar logging y monitoreo compartidoLección 4Diseño de red: redes privadas, security groups, reglas de firewall, NAT y routing entre on-prem y cloudAprendé a diseñar redes seguras y resilientes para entornos híbridos. Cubrimos subredes privadas, security groups, políticas de firewall, patrones NAT y routing entre on-premises y cloud para soportar despliegues escalables de servidores.
Diseñar subredes privadas y públicasSecurity groups y diseño de reglas firewallGateways NAT y acceso outbound a internetRouting entre on-prem y VPCs cloudSegmentación de red para tiers de appLección 5Gestión de parches: ciclo de vida de paquetes SO, herramientas de gestión de configuración (Ansible, Puppet, Salt), ventanas programadas y planes de rollbackPlanificá y operá gestión de parches para sistemas operativos y aplicaciones. Aprendé ciclos de vida de paquetes, usando Ansible, Puppet o Salt, programando ventanas de mantenimiento, testeando updates y preparando planes de rollback y comunicación.
Conceptos de ciclo de vida SO y paquetesUsar Ansible, Puppet o SaltTesteo de parches y entornos de stagingProgramar ventanas de mantenimientoEstrategias de rollback y comunicaciónLección 6Control de acceso y autenticación: gestión de claves SSH, patrones host bastión, jumpboxes, colocación VPN, consideraciones MFADiseñá control de acceso seguro para servidores usando claves SSH, hosts bastión y VPNs. Aprendé gestión del ciclo de vida de claves, patrones jumpbox, integración MFA y logging de acceso administrativo para cumplimiento e incident response.
Generación y rotación de claves SSHPatrones hosts bastión y jumpboxColocación VPN y flujos de tráficoIntegrar MFA para acceso adminAuditar y loggear sesiones remotasLección 7Testeo de restauración: drills de recuperación, restore point-in-time para bases de datos, conceptos RTO/RPO y validación de restoresEntendé cómo probar que los backups son utilizables mediante testing estructurado de restauración. Practicarás drills de recuperación, restores point-in-time de bases de datos y pasos de validación alineados con targets RTO y RPO para servicios críticos internos.
Definir objetivos RTO y RPOPlanificar y ejecutar drills de recuperaciónTestear restores point-in-time de DBValidar restores a nivel aplicaciónDocumentar y revisar resultados de testsLección 8Runbooks y playbooks operativos: crear y almacenar runbooks, gestión de cambios, ejemplos de runbooks para tareas comunesCreá runbooks y playbooks operativos efectivos para tareas rutinarias y emergencias. Aprendé estructura, almacenamiento y control de cambios, y repasá ejemplos concretos para deployments, restarts, triage de incidentes y pasos de rollback.
Estructura de runbook y detalles requeridosVersionado y almacenamiento de runbooksGestión de cambios y aprobacionesRunbooks para tareas de mantenimiento comunesPlaybooks de respuesta a incidentes y escaladaLección 9Arquitectura básica de monitoreo y alerting: métricas, logs, traces; elegir stack de monitoreo (Prometheus, Grafana, Alertmanager, Nagios, Zabbix)Construí una arquitectura básica de monitoreo y alerting usando métricas, logs y traces. Compará Prometheus, Grafana, Alertmanager, Nagios y Zabbix, y diseñá reglas de alertas, dashboards y paths de escalada para servicios internos.
Métricas clave, logs y señales de tracingSeleccionar stack de herramientas de monitoreoDiseñar dashboards para operadoresReglas de alerta, thresholds y control de ruidoPolíticas de escalada y flujos on-callLección 10Trade-offs de alta disponibilidad y redundancia para app interna mediana (load balancing, sticky sessions, stores de sesión)Explorá patrones de alta disponibilidad y trade-offs de redundancia para una app interna mediana. Aprendé opciones de load balancing, manejo de sticky sessions, stores de sesión externos y escenarios de falla para balancear costo, complejidad y uptime.
Identificar requerimientos de disponibilidadTipos de load balancer y health checksSticky sessions vs diseño statelessStores de sesión externos y cachingModos de falla y degradación graceful