Lección 1Análisis de memoria: free -m, /proc/meminfo, slabtop, smem—interpretando memoria usada vs disponible y comportamiento de swapAquí analizarás el comportamiento de la memoria usando free, /proc/meminfo, slabtop y smem. La sección explica el caché de Linux, buffers y reclaim, cómo interpretar el uso de swap y cómo detectar fugas de memoria, fragmentación y límites mal configurados.
Reading free -m and understanding cached memoryKey fields in /proc/meminfo for diagnosisUsing slabtop to inspect kernel slab usageUsing smem to attribute memory per processRecognizing swap thrashing and OOM risksLección 2Uso de red y cuellos de botella: iftop, nload, ss, netstat, ip -s link, tc, tcpdump—identificando saturación de red y conexiones problemáticasEsta sección cubre el diagnóstico de uso de red y cuellos de botella usando iftop, nload, ss, ip, tc y tcpdump. Aprenderás a identificar saturación, vecinos ruidosos, estados de conexión y problemas a nivel de paquetes que contribuyen a aplicaciones lentas.
Monitoring live bandwidth with iftop and nloadInspecting sockets and states with ssUsing ip -s link to view interface errorsBasics of tc for shaping and rate limitingTargeted packet capture with tcpdumpLección 3Latencia de almacenamiento y E/S más profunda: blktrace, bpftrace (scripts básicos), fio para pruebas—cómo medir e interpretar latencia y throughputEsta sección cubre latencia de almacenamiento y análisis más profundo de E/S usando blktrace, scripts básicos de bpftrace y benchmarks de fio. Aprenderás a medir latencia y throughput, interpretar profundidad de cola y distinguir límites de dispositivo de problemas de carga de trabajo.
Understanding latency, IOPS, and throughputUsing blktrace to inspect block I/O patternsIntroductory bpftrace scripts for disk latencyDesigning fio workloads that mimic productionReading fio reports and spotting bottlenecksLección 4Investigación de procesos: ps, filtros top/htop, pgrep, pidstat, nice/renice—cómo encontrar procesos pesados en CPU y memoriaAprenderás a investigar procesos con ps, filtros de top o htop, pgrep, pidstat y nice o renice. La sección muestra cómo identificar tareas pesadas en CPU y memoria, rastrear E/S por proceso y ajustar prioridades para reducir contención.
Listing and filtering processes with psUsing pgrep and pkill safely and preciselyUsing pidstat for per process CPU and I/OFiltering top and htop by user or resourceAdjusting priorities with nice and reniceLección 5Resumen de recursos del sistema: top, htop, vmstat, mpstat, dstat—qué muestra cada uno y patrones de salida esperadosAquí aprenderás a leer instantáneas de recursos del sistema usando herramientas como top, htop, vmstat, mpstat y dstat. La sección se enfoca en entender métricas de CPU, memoria y carga, y reconocer patrones normales versus patológicos.
Key CPU, load, and memory fields in topUsing htop for interactive process analysisvmstat for run queue, swap, and I/O insightmpstat for per-CPU utilization and steal timedstat for combined multi-resource timelinesLección 6E/S de disco y chequeos de sistema de archivos: iostat, iotop, sar -d, lsblk, df -h, du -sh, tune2fs, xfs_info—detectando cuellos de botella de E/S y bajo espacioEsta sección se enfoca en E/S de disco y salud de sistema de archivos usando iostat, iotop, sar -d, lsblk, df, du, tune2fs y xfs_info. Aprenderás a detectar saturación, acumulación de cola, errores de sistema de archivos y condiciones de bajo espacio que degradan el rendimiento.
Using iostat to spot busy and slow devicesUsing iotop to find I/O heavy processessar -d for historical disk utilization trendsChecking layout and types with lsblk and dfFinding space hogs with du and inode checksLección 7Registros del sistema y journaling: journalctl (systemd), /var/log/messages, /var/log/syslog, logs de auth—qué buscar y por quéEsta sección explica cómo usar journalctl de systemd y archivos de log clásicos como /var/log/messages, /var/log/syslog y logs de autenticación. Aprenderás qué patrones buscar, cómo filtrar ruido y cómo los logs apoyan el análisis de causa raíz.
journalctl basics and useful filtering optionsReading /var/log/messages and /var/log/syslogFinding errors, warnings, and rate-limited eventsAnalyzing authentication and sudo related logsCorrelating log timestamps with incidentsLección 8Monitoreo basado en tiempo e histórico: sar, sysstat, collectl—recolectando y leyendo métricas históricas para correlacionar eventosAprenderás a recolectar e interpretar métricas históricas usando sar, sysstat y collectl. La sección explica cómo programar recolección de datos, leer reportes de series temporales y correlacionar anomalías de rendimiento con cambios de configuración o despliegues.
Enabling and configuring sysstat collectionUsing sar for CPU, memory, and I/O historyReading sar network and load average trendsUsing collectl for multi-resource timelinesCorrelating metrics with change windowsLección 9Insights del kernel y scheduler: dmesg, sysctl -a, parámetros /proc/sys/vm—qué revelan mensajes del kernel y tunablesAquí explorarás insights del kernel y scheduler usando dmesg, sysctl y parámetros /proc/sys/vm. La sección explica cómo mensajes del kernel, tunables y comportamiento del scheduler revelan problemas de hardware, malas configuraciones y opciones de tuning.
Reading dmesg for hardware and driver issuesListing and querying sysctl tunable valuesKey /proc/sys/vm parameters for memoryScheduler related kernel parameters overviewSafely persisting kernel tuning changesLección 10Enfoque para determinación de causa raíz: árbol de decisiones paso a paso para clasificar problemas como CPU, RAM, E/S de disco o redEsta sección presenta un árbol de decisiones práctico para análisis de causa raíz. Aprenderás a clasificar incidentes como limitados por CPU, memoria, E/S de disco o red, qué herramientas ejecutar en cada rama y cómo refinar hipótesis iterativamente usando evidencia recolectada.
Initial triage and problem statementClassifying CPU versus I/O bound symptomsDistinguishing memory pressure from leaksIdentifying network versus local bottlenecksIterative hypothesis testing with metrics