Lekcija 1Obdelava metapodatkov kanalov (specifični vzorci žetonov za kanal, kodiranje metapodatkov)Razumite, kako obdelati metapodatke kanalov, kot so klepet, e-pošta in telefonski dnevnik. Obravnavamo vzorce žetonov specifične za kanal, strategije kodiranja in kako kombinirati metapodatke z besedilom za bogatejše modeliranje.
Cataloging support channels and fieldsChannel-specific token patternsOne-hot and embedding encodingsCombining text and metadata featuresHandling missing channel metadataLekcija 2Obdelava emojijev, emotsikonov in nestandardnih žetonov ter kartiranje na signale čustevRaziskujte, kako normalizirati emojije, emotskone in druge nestandardne žetone, pri čemer ohranjate čustvo. Razpravljamo o strategijah kartiranja, leksikonih in kako integrirati te signale v nadaljnje modele čustev in namenov.
Cataloging emoji and emoticon usageUnicode handling and normalizationMapping tokens to sentiment scoresBuilding custom emoji lexiconsIntegrating signals into modelsLekcija 3Ločila, krčenja in strategije tokenizacije za angleško podporno besediloPreglejte ločila, krčenja in strategije tokenizacije za angleško besedilo podpornih vozovnic. Primerjamo pravilo-osnovane in knjižnične tokenizatorje, obravnavamo robne primere in usklajujemo tokenizacijo z zahtevami nadaljnjega modela.
Role of punctuation in support ticketsExpanding and normalizing contractionsRule-based vs statistical tokenizersHandling URLs and emojis in tokensTokenization for transformer modelsLekcija 4Korenčenje proti lematizaciji: algoritmi, knjižnice in kdaj uporabiti vsakegaPrimerjajte pristope korenčenja in lematizacije, vključno z algoritmi in knjižnicami. Naučili se boste, kdaj uporabiti vsako metodo v delovnih tokovih podpornih vozovnic in kako vplivajo na velikost besedišča ter vedenje modela.
Rule-based and algorithmic stemmersDictionary-based lemmatizersLibrary choices and performanceImpact on vocabulary and sparsityTask-driven method selectionLekcija 5Obdelava napak v črkovanju, kratic in domen-specifične okrajšave (poprava črkovanja, slovarji iskanja)Raziskujte metode za popravo črkovanja, razširjanje kratic in normalizacijo domen-specifične okrajšave v vozovnicah. Kombinirali boste popravo črkovanja, slovarje iskanja in prilagojena pravila, pri čemer se izognete škodljivim spremembam ključnih entitet in kodov.
Common error types in support textDictionary and edit-distance correctionCustom domain abbreviation lexiconsContext-aware correction strategiesProtecting entities and codesLekcija 6Kompromisi odstranjevanja ustavljalnih besed in nastavljivi seznami ustavljalnih besed za domene podpornih vozovnicPreglejte kompromise odstranjevanja ustavljalnih besed v domenah podpornih vozovnic. Oblikovali boste nastavljive sezname ustavljalnih besed, ocenili njihov vpliv na modele in obravnavali domen-specifične funkcionalne besede, ki lahko nosijo subtilen namen.
Standard vs domain stopword listsImpact on bag-of-words featuresEffect on embeddings and transformersConfigurable and layered stopword setsEvaluating removal with ablationLekcija 7Osnove normalizacije besedila: malenkostno pisanje, normalizacija Unicode, obdelava presledkov in prelomov vrsticPokrijte osnovne korake normalizacije besedila, kot so malenkostno pisanje, normalizacija Unicode, čiščenje presledkov in prelomi vrstic. Razpravljamo o vrstnem redu operacij, jezikovnih posebnostih in ohranjanju pomembnih namigov oblikovanja.
Lowercasing and case preservation rulesUnicode normalization formsHandling accents and special symbolsWhitespace and linebreak cleanupOrdering normalization operationsLekcija 8Strategije razdeljevanja podatkov: razdelitve na podlagi časa, plastno vzorčenje po temi/čustvu in premisleki gnezdene preverbeRaziskujte strategije razdeljevanja podatkov, prilagojene časovnim in označenim podatkom vozovnic. Primerjamo razdelitve na podlagi časa, plastno vzorčenje po temi ali čustvu ter gnezdeno preverjanje za robustno ocenjevanje modela.
Holdout, k-fold, and temporal splitsStratification by topic and sentimentPreventing temporal data leakageNested cross-validation workflowsAligning splits with business goalsLekcija 9Obdelava URL-jev, e-poštnih naslovov, koščkov kode in identifikatorjev v besedilu (maskiranje proti ohranitvi)Naučite se strategij za obdelavo URL-jev, e-poštnih naslovov, koščkov kode in identifikatorjev v besedilu. Primerjamo maskiranje, normalizacijo in ohranjanje, s poudarkom na zasebnosti, deduplikaciji in vplivih na zmogljivost modela.
Detecting URLs and email patternsMasking versus normalization rulesRepresenting code snippets safelyHandling ticket and user identifiersPrivacy and leakage considerationsLekcija 10Razumevanje sheme CSV in tipov podatkov (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Naučite se interpretirati sheme CSV za nabore podatkov vozovnic in dodeliti pravilne tipe podatkov. Obravnavamo razčlenjevanje identifikatorjev, časovnih znamk, logičnih vrednosti in besedilnih polj ter preverbe veljavnosti, ki preprečujejo subtilne nadaljnje napake.
Inspecting headers and sample rowsAssigning robust column data typesValidating timestamps and IDsDetecting malformed or mixed typesSchema validation in pipelinesLekcija 11Tehnike za zaznavanje in kvantifikacijo manjkajočih vrednosti in hrupa oznak (vzorcev manjkajočnosti, preverbe skladnosti oznak, metrike medoznačevalcev)Naučite se zaznavati manjkajoče vrednosti in hrupne oznake v naborih podatkov podpornih vozovnic. Obravnavamo vzorce manjkajočnosti, preverbe skladnosti oznak in metrike medoznačevalcev za kvantifikacijo kakovosti oznak in usmerjanje odločitev o čiščenju.
Types of missingness in ticket datasetsVisualizing missingness patternsDetecting inconsistent labelsInter-annotator agreement metricsHeuristics to flag label noiseLekcija 12Izdelava ponovljivih cevovodov in verzioniranje očiščenih naborov podatkov (pogodbe o podatkih, heširanje)Naučite se graditi ponovljive cevovode predobdelave in verzionirane očiščene nabore podatkov. Obravnavamo modularno oblikovanje cevovodov, upravljanje konfiguracij, heširanje in pogodbe o podatkih, ki držijo modele, kodo in podatke usklajene skozi čas.
Designing modular preprocessing stepsConfiguration and parameter trackingHashing raw and processed datasetsData contracts and schema guaranteesLogging and audit trails for changesLekcija 13Razčlenjevanje datuma/časa in obdelava časovnih pasov, izpeljava časovnih značilk (del dneva, dan v tednu, svežina)Razumite, kako razčleniti heterogene polja datuma in časa, obravnavati časovne pasove in izpeljati časovne značilke. Osredotočamo se na robustno razčlenjevanje, normalizacijo na kanonski čas in inženirske značilke, kot sta svežina in sezoniranje.
Parsing heterogeneous date formatsTimezone normalization strategiesHandling missing or invalid timestampsDeriving recency and age featuresDaypart, weekday, and seasonalityLekcija 14Imputacija in obdelava nebesedilnih stolpcev (resolved, resolution_time_hours, channel) za modeliranjeRaziskujte imputacijo in predobdelavo za nebesedilne stolpce, kot so status rešitve, čas rešitve in kanal. Razpravljamo o strategijah kodiranja, tveganjih uhajanja in kako uskladiti te značilke z besedilom za modeliranje.
Profiling non-text ticket columnsImputation for numeric durationsEncoding categorical status fieldsAvoiding target leakage in featuresJoint modeling with text signals