Lekce 1Zpracování metadat kanálu (kanálově specifické tokenové vzorce, kódování metadat)Porozumíte zpracování metadat kanálu jako chat, email a telefonní záznamy. Pokryjeme kanálově specifické tokenové vzorce, strategie kódování a kombinaci metadat s textem pro bohatší modelování.
Katalogizace podpůrných kanálů a políKanálově specifické tokenové vzorceOne-hot a embeddingové kódováníKombinace textových a metadatových příznakůZpracování chybějících metadat kanáluLekce 2Zpracování emoji, emotikonů a nestandardních tokenů s mapováním na sentimentální signályProzkoumáte normalizaci emoji, emotikonů a dalších nestandardních tokenů při zachování sentimentu. Diskutujeme strategie mapování, lexika a integraci těchto signálů do následných sentimentálních a intencionálních modelů.
Katalogizace použití emoji a emotikonůZpracování a normalizace UnicodeMapování tokenů na sentimentální skóreVytváření vlastních emoji lexikIntegrace signálů do modelůLekce 3Interpunkce, kontrakce a tokenizační strategie pro anglický podpůrný textZkoumáte interpunkci, kontrakce a tokenizační strategie pro anglický podpůrný text. Porovnáme tokenizátory založené na pravidlech a knihovnách, zpracujeme hraniční případy a sladíme tokenizaci s požadavky následných modelů.
Role interpunkce v podpůrných tiketechRozšiřování a normalizace kontrakcíPravidlové vs statistické tokenizátoryZpracování URL a emoji v tokenechTokenizace pro transformerové modelyLekce 4Stemmíng vs lemmatizace: algoritmy, knihovny a kdy použít každýPorovnáte přístupy stemmingu a lemmatizace včetně algoritmů a knihoven. Naučíte se, kdy použít každou metodu v workflowch podpůrných tiketů a jak ovlivňují velikost slovní zásoby a chování modelů.
Pravidlové a algoritmické stemmerySlovníkové lemmatizátoryVolba knihoven a výkonDopad na slovní zásobu a řídkostVýběr metody podle úlohyLekce 5Zpracování pravopisných chyb, zkratek a doménově specifických zkratek (korekce pravopisu, slovníky)Prozkoumáte metody korekce pravopisu, rozšiřování zkratek a normalizace doménových zkratek v tiketech. Kombinujete korekci pravopisu, slovníky a vlastní pravidla při vyhýbání se škodlivým změnám klíčových entit a kódů.
Běžné typy chyb v podpůrném textuSlovníkové a edit-distance korekceVlastní doménové zkratkové lexikaKontextově citlivé strategie korekceOchrana entit a kódůLekce 6Trade-offy odstranění stopslov a konfigurovatelné seznamy stopslov pro domény podpůrných tiketůZkoumáte trade-offy odstranění stopslov v doménách podpůrných tiketů. Navrhnete konfigurovatelné seznamy stopslov, vyhodnotíte jejich dopad na modely a zpracujete doménově specifická funkční slova, která mohou nést jemný záměr.
Standardní vs doménové seznamy stopslovDopad na bag-of-words příznakyEfekt na embeddingy a transformeryKonfigurovatelné a vrstvené sady stopslovVyhodnocení odstranění ablacíLekce 7Základy normalizace textu: malá písmena, normalizace Unicode, zpracování mezer a zalomení řádkůPokryjeme základní kroky normalizace textu jako převod na malá písmena, normalizace Unicode a čištění mezer. Diskutujeme pořadí operací, jazykově specifické úskalí a zachování důležitých formátovacích indicií.
Převod na malá písmena a pravidla zachování velikostiFormy normalizace UnicodeZpracování diakritiky a speciálních symbolůČištění mezer a zalomení řádkůPořadí normalizačních operacíLekce 8Strategie dělení dat: časové dělení, stratifikované vzorkování podle tématu/sentimentu a úvahy o vnořené křížové validaciProzkoumáte strategie dělení dat přizpůsobené časovým a označeným datům tiketů. Porovnáme časové dělení, stratifikované vzorkování podle tématu nebo sentimentu a vnořenou křížovou validaci pro robustní vyhodnocení modelů.
Holdout, k-fold a časové děleníStratifikace podle tématu a sentimentuPrevence časového úniku datWorkflowy vnořené křížové validaceSladění dělení s obchodními cíliLekce 9Zpracování URL, emailových adres, kódových úryvků a identifikátorů v textu (maskování vs zachování)Naučíte se strategie zpracování URL, emailů, kódových úryvků a identifikátorů v textu. Porovnáme maskování, normalizaci a volby zachování s důrazem na soukromí, deduplikaci a dopady na výkon modelů.
Detekce vzorců URL a emailůPravidla maskování versus normalizaceBezpečné reprezentování kódových úryvkůZpracování identifikátorů tiketů a uživatelůÚvahy o soukromí a únicíchLekce 10Porozumění schématům CSV a datovým typům (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Naučíte se interpretovat schémata CSV pro datasety tiketů a přiřazovat správné datové typy. Pokryjeme parsování identifikátorů, časových razítek, booleanů a textových polí plus validační kontroly, které zabraňují jemným následným chybám.
Inspekce hlaviček a vzorových řádkůPřiřazení robustních datových typů sloupcůValidace časových razítek a IDDetekce chybných nebo smíšených typůValidace schémat v pipelinechLekce 11Techniky detekce a kvantifikace chybějících hodnot a šumu štítků (vzorce chybějících hodnot, kontroly konzistence štítků, metriky mezi anotátory)Naučíte se detekovat chybějící hodnoty a šumové štítky v datasetech podpůrných tiketů. Pokryjeme vzorce chybějících hodnot, kontroly konzistence štítků a metriky shody mezi anotátory pro kvantifikaci kvality štítků a vedení rozhodnutí o čištění.
Typy chybějících hodnot v datasetech tiketůVizualizace vzorců chybějících hodnotDetekce nekonzistentních štítkůMetriky shody mezi anotátoryHeuristika pro označení šumu štítkůLekce 12Vytváření reprodukovatelných pipeline a verzování vyčištěných datasetů (datové smlouvy, hašování)Naučíte se budovat reprodukovatelné pipeline předzpracování a verzované vyčištěné datasety. Pokryjeme modulární návrh pipeline, správu konfigurací, hašování a datové smlouvy, které udržují modely, kód a data sladěné v čase.
Návrh modulárních kroků předzpracováníSledování konfigurací a parametrůHašování surových a zpracovaných datasetůDatové smlouvy a záruky schématLogování a auditní stopy změnLekce 13Parsování datum/čas a zpracování časových pásem, odvozování časových příznaků (denní část, víkend, aktuálnost)Porozumíte parsování heterogenních polí data a času, zpracování časových pásem a odvozování časových příznaků. Zaměříme se na robustní parsování, normalizaci na kanonický čas a inženýrské příznaky jako aktuálnost a sezónnost.
Parsování heterogenních formátů dataStrategie normalizace časových pásemZpracování chybějících nebo neplatných časových razítekOdvozování příznaků aktuálnosti a stáříDenní část, víkend a sezónnostLekce 14Imputace a zpracování netextových sloupců (resolved, resolution_time_hours, channel) pro modelováníProzkoumáte imputaci a předzpracování netextových sloupců jako stav vyřešení, čas vyřešení a kanál. Diskutujeme strategie kódování, rizika úniku a sladění těchto příznaků s textem pro modelování.
Profilování netextových sloupců tiketůImputace pro numerické trváníKódování kategorických stavových políVyhýbání se úniku cílové proměnné v příznacíchSpolečné modelování s textovými signály