Lecția 1Analiza memoriei: free -m, /proc/meminfo, slabtop, smem—interpretarea memoriei utilizate vs disponibilă și comportamentul swapAici veți analiza comportamentul memoriei folosind free, /proc/meminfo, slabtop și smem. Secțiunea explică caching-ul Linux, buffer-ele și reclaim-ul, cum să interpretați utilizarea swap-ului și cum să detectați scurgeri de memorie, fragmentare și limite configurate greșit.
Reading free -m and understanding cached memoryKey fields in /proc/meminfo for diagnosisUsing slabtop to inspect kernel slab usageUsing smem to attribute memory per processRecognizing swap thrashing and OOM risksLecția 2Utilizarea rețelei și blocaje: iftop, nload, ss, netstat, ip -s link, tc, tcpdump—identificarea saturației rețelei și conexiuni problematiceAceastă secțiune acoperă diagnosticarea utilizării rețelei și blocajelor folosind iftop, nload, ss, ip, tc și tcpdump. Veți învăța să identificați saturația, vecini zgomotoși, stări de conexiune și probleme la nivel de pachete care contribuie la aplicații lente.
Monitoring live bandwidth with iftop and nloadInspecting sockets and states with ssUsing ip -s link to view interface errorsBasics of tc for shaping and rate limitingTargeted packet capture with tcpdumpLecția 3Latența stocării și I/O mai profund: blktrace, bpftrace (scripturi de bază), fio pentru teste—cum să măsurați și interpretați latența și throughputAceastă secțiune acoperă latența stocării și analiza I/O mai profundă folosind blktrace, scripturi bpftrace de bază și benchmark-uri fio. Veți învăța cum să măsurați latența și throughput-ul, să interpretați adâncimea cozii și să diferențiați limitele dispozitivelor de problemele de workload.
Understanding latency, IOPS, and throughputUsing blktrace to inspect block I/O patternsIntroductory bpftrace scripts for disk latencyDesigning fio workloads that mimic productionReading fio reports and spotting bottlenecksLecția 4Investigarea proceselor: ps, filtre top/htop, pgrep, pidstat, nice/renice—cum să găsiți procese intensive pe CPU și memorieVeți învăța să investigați procesele cu ps, filtre top sau htop, pgrep, pidstat și nice sau renice. Secțiunea arată cum să identificați sarcinile intensive pe CPU și memorie, să urmăriți I/O per proces și să ajustați prioritățile pentru a reduce contestațiile.
Listing and filtering processes with psUsing pgrep and pkill safely and preciselyUsing pidstat for per process CPU and I/OFiltering top and htop by user or resourceAdjusting priorities with nice and reniceLecția 5Prezentare generală resurse sistem: top, htop, vmstat, mpstat, dstat—ce arată fiecare și tipare de ieșire așteptateAici veți învăța să citiți instantanee de resurse sistem-wide folosind tool-uri precum top, htop, vmstat, mpstat și dstat. Secțiunea se concentrează pe înțelegerea metricilor CPU, memorie și load, și recunoașterea tiparelor normale versus patologice.
Key CPU, load, and memory fields in topUsing htop for interactive process analysisvmstat for run queue, swap, and I/O insightmpstat for per-CPU utilization and steal timedstat for combined multi-resource timelinesLecția 6I/O disk și verificări filesystem: iostat, iotop, sar -d, lsblk, df -h, du -sh, tune2fs, xfs_info—detectarea blocajelor I/O și spațiu scăzutAceastă secțiune se concentrează pe I/O disk și sănătatea filesystem folosind iostat, iotop, sar -d, lsblk, df, du, tune2fs și xfs_info. Veți învăța să detectați saturația, acumularea de cozi, erori de filesystem și condiții de spațiu scăzut care degradează performanța.
Using iostat to spot busy and slow devicesUsing iotop to find I/O heavy processessar -d for historical disk utilization trendsChecking layout and types with lsblk and dfFinding space hogs with du and inode checksLecția 7Jurnale sistem și journaling: journalctl (systemd), /var/log/messages, /var/log/syslog, log-uri auth—ce să căutați și de ceAceastă secțiune explică cum să folosiți systemd journalctl și fișiere de log clasice precum /var/log/messages, /var/log/syslog și log-uri de autentificare. Veți învăța ce tipare să căutați, cum să filtrați zgomotul și cum log-urile susțin analiza cauzei rădăcină.
journalctl basics and useful filtering optionsReading /var/log/messages and /var/log/syslogFinding errors, warnings, and rate-limited eventsAnalyzing authentication and sudo related logsCorrelating log timestamps with incidentsLecția 8Monitorizare bazată pe timp și istorică: sar, sysstat, collectl—colectarea și citirea metricilor istorice pentru corelarea evenimentelorVeți învăța cum să colectați și interpretați metrici istorice folosind sar, sysstat și collectl. Secțiunea explică cum să programați colectarea datelor, să citiți rapoarte time series și să corelați anomalii de performanță cu schimbări de configurație sau deploy-uri.
Enabling and configuring sysstat collectionUsing sar for CPU, memory, and I/O historyReading sar network and load average trendsUsing collectl for multi-resource timelinesCorrelating metrics with change windowsLecția 9Insight-uri kernel și scheduler: dmesg, sysctl -a, parametri /proc/sys/vm—ce revelează mesajele kernel și tunabileleAici veți explora insight-uri kernel și scheduler folosind dmesg, sysctl și parametri /proc/sys/vm. Secțiunea explică cum mesajele kernel, tunabilele și comportamentul scheduler dezvăluie probleme hardware, configurări greșite și opțiuni de tuning.
Reading dmesg for hardware and driver issuesListing and querying sysctl tunable valuesKey /proc/sys/vm parameters for memoryScheduler related kernel parameters overviewSafely persisting kernel tuning changesLecția 10Abordare pentru determinarea cauzei rădăcină: arbore de decizii pas cu pas pentru clasificarea problemelor ca CPU, RAM, I/O disk sau rețeaAceastă secțiune prezintă un arbore de decizii practic pentru analiza cauzei rădăcină. Veți învăța cum să clasificați incidentele ca fiind legate de CPU, memorie, I/O disk sau rețea, ce tool-uri să rulați în fiecare ramură și cum să rafinați ipotezele iterativ folosind dovezile colectate.
Initial triage and problem statementClassifying CPU versus I/O bound symptomsDistinguishing memory pressure from leaksIdentifying network versus local bottlenecksIterative hypothesis testing with metrics