Lekcja 1Testy urządzeń sieciowych: status interfejsu, CPU/pamięć przełączników/firewalli, wykorzystanie tabeli sesji, liczniki trafień ACLZrozum, jak monitorować zdrowie przełączników, routerów i firewalli, w tym status interfejsów, CPU płaszczyzny sterującej, ciśnienie pamięci, tabele sesji i liczniki ACL, aby wykrywać zatory, błędy polityk i ryzyka pojemności przed awariami.
Weryfikacja stanu łącza, duplexu i prędkościMonitorowanie CPU i pamięci przełączników i firewalliWykorzystanie tabeli sesji i planowanie pojemnościLiczniki trafień ACL i nieoczekiwane wzorce ruchuLekcja 2Testy VPN i uwierzytelniania: status tunelu, sesje równoległe, opóźnienie uwierzytelniania, wygaśnięcie certyfikatuBadaj metryki zdrowia VPN i uwierzytelniania, w tym status tunelu, sesje równoległe, opóźnienie uwierzytelniania i wygaśnięcie certyfikatów, aby zapewnić bezpieczny zdalny dostęp i uniknąć nagłych przerw z powodu pojemności lub problemów PKI.
Status tunelu w górze/w dół i testy keepaliveSesje VPN równoległe i limity licencjiOpóźnienie uwierzytelniania i magazyny tożsamości backenduMonitorowanie wygaśnięcia certyfikatów i okna odnawianiaLekcja 3Metryki pamięci: wykorzystane vs dostępne, błędy stron, wykorzystanie swapu i wykrywanie wycieków pamięciPoznaj wzorce użycia pamięci, w tym wykorzystaną vs dostępną pamięć, pamięć podręczną i bufory, błędy stron oraz aktywność swapu, i naucz się odróżniać normalne buforowanie od rzeczywistego ciśnienia, wykrywać wycieki i bezpiecznie dostrajać progi alarmów.
Interpretacja wykorzystanej, wolnej, pamięci podręcznej i buforówGłówne vs drobne błędy stron i ich wpływ na wydajnośćWykorzystanie swapu, swappiness i progi alarmówWzorce i narzędzia do wykrywania wycieków pamięciLekcja 4Metryki sieciowe: błędy interfejsu, wykorzystanie przepustowości, utrata pakietów, RTT, odrzuty NIC i problemy MTUAnalizuj kluczowe metryki wydajności sieci, takie jak błędy interfejsów, wykorzystanie przepustowości, utrata pakietów, RTT i odrzuty NIC, oraz naucz się, jak niezgodności MTU i zatory wpływają na wydajność aplikacji i doświadczenie użytkownika.
Błędy interfejsu, odrzuty i usterki fizyczneWykorzystanie przepustowości, skoki i nadsubskrypcjaUtrata pakietów, jitter i wpływ na aplikacjeLinie bazowe RTT i wykrywanie zmian ścieżekNiezgodności MTU, fragmentacja i czarne dziuryLekcja 5Testy aplikacji i web: czas odpowiedzi HTTP(S), kody statusu, czasy uścisków TLS, transakcje syntetyczneNaucz się monitorować punkty końcowe aplikacji i web za pomocą kodów statusu HTTP, czasów odpowiedzi, metryk uścisków TLS i transakcji syntetycznych, zapewniając, że ścieżki użytkownika pozostają szybkie, bezpieczne i odporne pod zmiennym obciążeniem.
Śledzenie kodów statusu HTTP i wskaźników błędówCzas odpowiedzi end-to-end i widoki w stylu ApdexCzas uścisku TLS i problemy z certyfikatamiSyntetyczne ścieżki użytkownika i skrypty transakcjiLekcja 6Metryki na poziomie serwera: CPU, obciążenie na rdzeń, długość kolejki uruchomień, przełączania kontekstu i co one ujawniająNaucz się, jak wykorzystanie CPU, obciążenie na rdzeń, długość kolejki uruchomień i przełączania kontekstu opisują nasycenie serwera, ciśnienie planowania i obciążenie jądra, oraz jak ustawiać progi, korelować skoki i unikać fałszywych alarmów.
Interpretacja wykorzystania CPU ogólnego vs na rdzeńDługość kolejki uruchomień i progi nasycenia CPUPrzełączania kontekstu i obciążenie planowania jądraIdentyfikacja obciążeń związanych z CPU vs I/OLekcja 7Metryki baz danych: aktywne połączenia, wolne zapytania, średnie opóźnienie zapytań, stosunek trafień w pamięć podręczną, blokady i zakleszczeniaZagłęb się w kluczowe wskaźniki zdrowia baz danych, takie jak aktywne połączenia, wolne zapytania, średnie opóźnienie, stosunek trafień w pamięć podręczną i zachowanie blokad, i naucz się używać tych metryk do znajdowania wąskich gardeł, dostrajania zapytań i zapobiegania zakleszczeniom.
Śledzenie pul aktywnych i bezczynnych połączeńLogi wolnych zapytań i rozkłady opóźnieńStosunek trafień w bufor pamięci podręcznej i podstawy dostrajaniaOczekiwania na blokady, blokujące sesje i zakleszczeniaLekcja 8Zdrowie stosu monitoringu: dostępność kolektorów, wykorzystanie magazynu retencji, zdrowie silnika alarmówZrozum, jak monitorować sam stos monitoringu, w tym czas pracy kolektorów, zaległości kolejek, wykorzystanie magazynowania szeregów czasowych i wydajność silnika alarmów, aby luki w metrykach i opóźnione alarmy były szybko wykrywane.
Dostępność kolektorów i wskaźniki sukcesu scrapowaniaZaległości kolejek, odrzuty i luki próbkowaniaPojemność magazynu retencji i kontrola kardynalnościOpóźnienie silnika alarmów i błędy ewaluacji regułLekcja 9Testy magazynów i dysków: wolne miejsce, oczekiwanie I/O, opóźnienie (await), przepustowość, wyczerpanie inodPrzejrzyj kluczowe metryki magazynów, w tym wolne miejsce, wykorzystanie inodów, oczekiwanie I/O, opóźnienia i przepustowość. Naucz się rozpoznawać nasycenie, hałaśliwych sąsiadów i wyczerpanie systemu plików oraz jak dobierać dyski i ustawiać sensowne alarmy.
Wolne miejsce, trendy wzrostu i poziomy alarmówWyczerpanie inodów i obciążenia małymi plikamiOczekiwanie I/O i jego związek z czasem bezczynności CPUOpóźnienia odczytu/zapisu, IOPS i limity przepustowości