Bài học 1Phân tích bộ nhớ: free -m, /proc/meminfo, slabtop, smem—diễn giải bộ nhớ đã dùng so với bộ nhớ khả dụng và hành vi swapỞ đây bạn sẽ phân tích hành vi bộ nhớ sử dụng free, /proc/meminfo, slabtop và smem. Phần này giải thích bộ đệm Linux, buffer và reclaim, cách diễn giải sử dụng swap, và cách phát hiện rò rỉ bộ nhớ, phân mảnh và giới hạn cấu hình sai.
Reading free -m and understanding cached memoryKey fields in /proc/meminfo for diagnosisUsing slabtop to inspect kernel slab usageUsing smem to attribute memory per processRecognizing swap thrashing and OOM risksBài học 2Sử dụng mạng và nút thắt cổ chai: iftop, nload, ss, netstat, ip -s link, tc, tcpdump—xác định bão hòa mạng và kết nối có vấn đềPhần này bao quát chẩn đoán sử dụng mạng và nút thắt cổ chai sử dụng iftop, nload, ss, ip, tc và tcpdump. Bạn sẽ học cách xác định bão hòa, hàng xóm ồn ào, trạng thái kết nối và vấn đề cấp gói đóng góp vào ứng dụng chậm.
Monitoring live bandwidth with iftop and nloadInspecting sockets and states with ssUsing ip -s link to view interface errorsBasics of tc for shaping and rate limitingTargeted packet capture with tcpdumpBài học 3Độ trễ lưu trữ và I/O sâu hơn: blktrace, bpftrace (script cơ bản), fio cho kiểm tra—cách đo và diễn giải độ trễ và thông lượngPhần này bao quát độ trễ lưu trữ và phân tích I/O sâu hơn sử dụng blktrace, script bpftrace cơ bản và benchmark fio. Bạn sẽ học cách đo độ trễ và thông lượng, diễn giải độ sâu hàng đợi và phân biệt giới hạn thiết bị với vấn đề workload.
Understanding latency, IOPS, and throughputUsing blktrace to inspect block I/O patternsIntroductory bpftrace scripts for disk latencyDesigning fio workloads that mimic productionReading fio reports and spotting bottlenecksBài học 4Điều tra tiến trình: ps, bộ lọc top/htop, pgrep, pidstat, nice/renice—cách tìm tiến trình nặng CPU và bộ nhớBạn sẽ học cách điều tra tiến trình với ps, bộ lọc top hoặc htop, pgrep, pidstat và nice hoặc renice. Phần này cho thấy cách xác định tác vụ nặng CPU và bộ nhớ, theo dõi I/O theo tiến trình và điều chỉnh ưu tiên để giảm tranh chấp.
Listing and filtering processes with psUsing pgrep and pkill safely and preciselyUsing pidstat for per process CPU and I/OFiltering top and htop by user or resourceAdjusting priorities with nice and reniceBài học 5Tổng quan tài nguyên hệ thống: top, htop, vmstat, mpstat, dstat—mỗi công cụ hiển thị gì và mẫu đầu ra mong đợiỞ đây bạn sẽ học cách đọc ảnh chụp tài nguyên hệ thống sử dụng công cụ như top, htop, vmstat, mpstat và dstat. Phần này tập trung vào hiểu chỉ số CPU, bộ nhớ và tải, và nhận biết mẫu sử dụng bình thường so với bệnh lý.
Key CPU, load, and memory fields in topUsing htop for interactive process analysisvmstat for run queue, swap, and I/O insightmpstat for per-CPU utilization and steal timedstat for combined multi-resource timelinesBài học 6I/O đĩa và kiểm tra filesystem: iostat, iotop, sar -d, lsblk, df -h, du -sh, tune2fs, xfs_info—phát hiện nút thắt I/O và không gian thấpPhần này tập trung vào I/O đĩa và sức khỏe filesystem sử dụng iostat, iotop, sar -d, lsblk, df, du, tune2fs và xfs_info. Bạn sẽ học cách phát hiện bão hòa, tích tụ hàng đợi, lỗi filesystem và tình trạng không gian thấp làm suy giảm hiệu suất.
Using iostat to spot busy and slow devicesUsing iotop to find I/O heavy processessar -d for historical disk utilization trendsChecking layout and types with lsblk and dfFinding space hogs with du and inode checksBài học 7Log hệ thống và journaling: journalctl (systemd), /var/log/messages, /var/log/syslog, log xác thực—cái gì cần tìm và tại saoPhần này giải thích cách sử dụng systemd journalctl và file log cổ điển như /var/log/messages, /var/log/syslog và log xác thực. Bạn sẽ học mẫu nào cần tìm kiếm, cách lọc nhiễu và log hỗ trợ phân tích nguyên nhân gốc như thế nào.
journalctl basics and useful filtering optionsReading /var/log/messages and /var/log/syslogFinding errors, warnings, and rate-limited eventsAnalyzing authentication and sudo related logsCorrelating log timestamps with incidentsBài học 8Giám sát dựa trên thời gian và lịch sử: sar, sysstat, collectl—thu thập và đọc chỉ số lịch sử để liên kết sự kiệnBạn sẽ học cách thu thập và diễn giải chỉ số lịch sử sử dụng sar, sysstat và collectl. Phần này giải thích cách lập lịch thu thập dữ liệu, đọc báo cáo chuỗi thời gian và liên kết bất thường hiệu suất với thay đổi cấu hình hoặc triển khai.
Enabling and configuring sysstat collectionUsing sar for CPU, memory, and I/O historyReading sar network and load average trendsUsing collectl for multi-resource timelinesCorrelating metrics with change windowsBài học 9Insight kernel và scheduler: dmesg, sysctl -a, tham số /proc/sys/vm—thông điệp kernel và tunable tiết lộ gìỞ đây bạn sẽ khám phá insight kernel và scheduler sử dụng dmesg, sysctl và tham số /proc/sys/vm. Phần này giải thích thông điệp kernel, tunable và hành vi scheduler tiết lộ vấn đề phần cứng, cấu hình sai và tùy chọn tuning như thế nào.
Reading dmesg for hardware and driver issuesListing and querying sysctl tunable valuesKey /proc/sys/vm parameters for memoryScheduler related kernel parameters overviewSafely persisting kernel tuning changesBài học 10Tiếp cận xác định nguyên nhân gốc: cây quyết định từng bước để phân loại vấn đề là CPU, RAM, I/O đĩa hoặc mạngPhần này trình bày cây quyết định thực tế cho phân tích nguyên nhân gốc. Bạn sẽ học cách phân loại sự cố là CPU, bộ nhớ, I/O đĩa hoặc mạng bị ràng buộc, công cụ nào chạy ở mỗi nhánh và cách tinh chỉnh giả thuyết lặp lại sử dụng bằng chứng thu thập.
Initial triage and problem statementClassifying CPU versus I/O bound symptomsDistinguishing memory pressure from leaksIdentifying network versus local bottlenecksIterative hypothesis testing with metrics