Lekcja 1Obsługa metadanych kanałów (specyficzne wzorce tokenów dla kanałów, kodowanie metadanych)Poznaj sposoby przetwarzania metadanych kanałów, takich jak czaty, e-maile i logi telefoniczne. Omawiamy specyficzne dla kanałów wzorce tokenów, strategie kodowania oraz łączenie metadanych z tekstem dla bogatszego modelowania.
Katalogowanie kanałów supportowych i pólSpecyficzne dla kanałów wzorce tokenówKodowania one-hot i embeddingiŁączenie cech tekstu i metadanychObsługa brakujących metadanych kanałówLekcja 2Obsługa emoji, emotikonów i nietypowych tokenów oraz mapowanie na sygnały sentymentuPoznaj normalizację emoji, emotikonów i innych nietypowych tokenów przy zachowaniu sentymentu. Omawiamy strategie mapowania, leksykony oraz integrację tych sygnałów z modelami sentymentu i intencji.
Katalogowanie użycia emoji i emotikonówObsługa i normalizacja UnicodeMapowanie tokenów na wyniki sentymentuTworzenie niestandardowych leksykonów emojiIntegracja sygnałów z modelamiLekcja 3Strategie tokenizacji dla tekstu supportowego po angielsku: interpunkcja, kontrakcjePoznaj interpunkcję, kontrakcje i strategie tokenizacji dla angielskiego tekstu supportowego. Porównujemy tokenizery oparte na regułach i biblioteczne, obsługujemy przypadki brzegowe oraz dostosowujemy tokenizację do wymagań modeli.
Rola interpunkcji w zgłoszeniach supportowychRozwijanie i normalizacja kontrakcjiTokenizery oparte na regułach vs statystyczneObsługa URL-i i emoji w tokenachTokenizacja dla modeli transformerowychLekcja 4Stemming vs lematyzacja: algorytmy, biblioteki i kiedy stosować każdePorównaj podejścia stemmingu i lematyzacji, w tym algorytmy i biblioteki. Nauczysz się, kiedy stosować każdą metodę w przepływach zgłoszeń supportowych i jak wpływają na rozmiar słownictwa oraz zachowanie modelu.
Stemmer'y oparte na regułach i algorytmiczneLematyzery oparte na słownikachWybór bibliotek i wydajnośćWpływ na słownictwo i rzadkośćDobór metod zależny od zadaniaLekcja 5Obsługa błędów ortograficznych, skrótów i skrótów branżowych (korekta pisowni, słowniki wyszukiwania)Poznaj metody korekty pisowni, rozwijania skrótów i normalizacji skrótów branżowych w zgłoszeniach. Łączysz korektę pisowni, słowniki wyszukiwania i niestandardowe reguły, unikając szkodliwych zmian kluczowych encji i kodów.
Typowe błędy w tekście supportowymKorekta słownikowa i edycyjnaNiestandardowe leksykony skrótów branżowychStrategie korekty uwzględniające kontekstOchrona encji i kodówLekcja 6Kompromisy usuwania stopwordsów i konfigurowalne listy stopwordsów dla domen zgłoszeńPoznaj kompromisy usuwania stopwordsów w domenach zgłoszeń supportowych. Projektujesz konfigurowalne listy stopwordsów, oceniasz ich wpływ na modele i obsługujesz specyficzne dla domen słowa funkcyjne niosące subtelną intencję.
Standardowe vs domenowe listy stopwordsówWpływ na cechy bag-of-wordsEfekt na embeddingi i transformeryKonfigurowalne i warstwowe zestawy stopwordsówOcena usuwania przez ablacjęLekcja 7Podstawy normalizacji tekstu: małe litery, normalizacja Unicode, obsługa białych znaków i podziałów liniiOmów podstawowe kroki normalizacji tekstu, takie jak małe litery, normalizacja Unicode i czyszczenie białych znaków. Dyskutujemy kolejność operacji, specyficzne dla języka zastrzeżenia oraz zachowanie ważnych wskazówek formatowania.
Małe litery i reguły zachowania wielkościFormy normalizacji UnicodeObsługa akcentów i symboli specjalnychCzyszczenie białych znaków i podziałów liniiKolejność operacji normalizacjiLekcja 8Strategie podziału danych: podziały oparte na czasie, stratyfikowana próbkowanie według tematu/sentymentu, zagnieżdżona walidacja krzyżowaPoznaj strategie podziału danych dostosowane do danych temporalnych i oznaczonych zgłoszeń. Porównujemy podziały oparte na czasie, stratyfikowane próbkowanie według tematu lub sentymentu oraz zagnieżdżoną walidację krzyżową dla solidnej oceny modelu.
Podziały holdout, k-fold i temporalneStratyfikacja według tematu i sentymentuZapobieganie wyciekom danych temporalnychPrzepływy zagnieżdżonej walidacji krzyżowejDopasowanie podziałów do celów biznesowychLekcja 9Obsługa URL-i, adresów e-mail, fragmentów kodu i identyfikatorów w tekście (maskowanie vs zachowanie)Poznaj strategie obsługi URL-i, e-maili, fragmentów kodu i identyfikatorów w tekście. Porównujemy maskowanie, normalizację i zachowanie, skupiając się na prywatności, deduplikacji i implikacjach dla wydajności modelu.
Wykrywanie wzorców URL-i i e-mailiReguły maskowania vs normalizacjiBezpieczne reprezentowanie fragmentów koduObsługa identyfikatorów zgłoszeń i użytkownikówRozważania prywatności i wyciekówLekcja 10Zrozumienie schematu CSV i typów danych (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Naucz się interpretować schematy CSV dla zbiorów danych zgłoszeń i przypisywać poprawne typy danych. Omawiamy parsowanie identyfikatorów, znaczników czasu, wartości boolskich i pól tekstowych oraz walidację zapobiegającą subtelnym błędom w dół.
Inspekcja nagłówków i przykładowych wierszyPrzypisywanie solidnych typów danych kolumnWalidacja znaczników czasu i IDWykrywanie wadliwych lub mieszanych typówWalidacja schematu w potokachLekcja 11Techniki wykrywania i kwantyfikacji brakujących wartości i szumu etykiet (wzorce brakowania, sprawdzanie spójności etykiet, metryki międzyanotatorowe)Naucz się wykrywać brakujące wartości i hałaśliwe etykiety w zbiorach danych zgłoszeń supportowych. Omawiamy wzorce brakowania, sprawdzanie spójności etykiet oraz metryki porozumienia międzyanotatorów do kwantyfikacji jakości etykiet i kierowania decyzjami czyszczenia.
Typy brakowania w zbiorach zgłoszeńWizualizacja wzorców brakowaniaWykrywanie niespójnych etykietMetryki porozumienia międzyanotatorówHeurystyki do oznaczania szumu etykietLekcja 12Tworzenie powtarzalnych potoków i wersjonowanie oczyszczonych zbiorów danych (kontrakty danych, hashowanie)Naucz się budować powtarzalne potoki wstępnego przetwarzania i wersjonowane oczyszczone zbiory danych. Omawiamy projektowanie modułowych potoków, zarządzanie konfiguracją, hashowanie oraz kontrakty danych utrzymujące modele, kod i dane zsynchronizowane w czasie.
Projektowanie modułowych kroków wstępnego przetwarzaniaŚledzenie konfiguracji i parametrówHashowanie surowych i przetworzonych zbiorówKontrakty danych i gwarancje schematuLogowanie i ślady audytowe zmianLekcja 13Parsowanie daty/czasu i obsługa stref czasowych, wyprowadzanie cech temporalnych (część dnia, dzień tygodnia, aktualność)Poznaj parsowanie heterogenicznych pól daty i czasu, obsługę stref czasowych oraz wyprowadzanie cech temporalnych. Skupiamy się na solidnym parsowaniu, normalizacji do kanonicznego czasu oraz cechach inżynierskich jak aktualność i sezonowość.
Parsowanie heterogenicznych formatów datStrategie normalizacji stref czasowychObsługa brakujących lub nieważnych znaczników czasuWyprowadzanie cech aktualności i wiekuCzęść dnia, dzień tygodnia i sezonowośćLekcja 14Imputacja i przetwarzanie kolumn nietekstowych (resolved, resolution_time_hours, channel) do modelowaniaPoznaj imputację i wstępne przetwarzanie kolumn nietekstowych jak status rozwiązania, czas rozwiązania i kanał. Omawiamy strategie kodowania, ryzyka wycieków oraz dopasowanie tych cech do tekstu dla modelowania.
Profilowanie kolumn nietekstowych zgłoszeńImputacja dla numerycznych czasów trwaniaKodowanie pól kategorycznych statusuUnikanie wycieków celu w cechachWspólne modelowanie z sygnałami tekstowymi