Lezione 1Gestione dei metadati del canale (pattern di token specifici del canale, codifica dei metadati)Comprendi come processare metadati del canale come chat, email e log telefonici. Copriamo pattern di token specifici del canale, strategie di codifica e come combinare metadati con testo per un modeling più ricco.
Catalogazione canali di supporto e campiPattern di token specifici del canaleCodifiche one-hot e embeddingCombinazione di testo e feature metadatiGestione metadati canale mancantiLezione 2Gestione e mappatura di emoji, emoticon e token non standard a segnali di sentimentStudia come normalizzare emoji, emoticon e altri token non standard preservando il sentiment. Discutiamo strategie di mappatura, lessici e come integrare questi segnali in modelli downstream di sentiment e intent.
Catalogazione uso emoji ed emoticonGestione e normalizzazione UnicodeMappatura token a score di sentimentCostruzione lessici emoji personalizzatiIntegrazione segnali nei modelliLezione 3Punteggiatura, contrazioni e strategie di tokenizzazione per testo di supporto in ingleseEsamina punteggiatura, contrazioni e strategie di tokenizzazione per testo di supporto in inglese. Confrontiamo tokenizzatori basati su regole e librerie, gestiamo casi edge e allineiamo la tokenizzazione con i requisiti dei modelli downstream.
Ruolo della punteggiatura nei ticket di supportoEspansione e normalizzazione contrazioniTokenizzatori basati su regole vs statisticiGestione URL ed emoji nei tokenTokenizzazione per modelli transformerLezione 4Stemming vs lemmatizzazione: algoritmi, librerie e quando applicare ciascunoConfronta approcci di stemming e lemmatizzazione, inclusi algoritmi e librerie. Imparerai quando applicare ciascun metodo nei workflow di ticket di supporto e come influenzano dimensione del vocabolario e comportamento del modello.
Stemmer basati su regole e algoritmiciLemmatizzatori basati su dizionarioScelte librerie e performanceImpatto su vocabolario e sparsitàSelezione metodo guidata dal taskLezione 5Gestione errori di spelling, abbreviazioni e shorthand specifico del dominio (correzione spelling, dizionari di lookup)Esplora metodi per correggere spelling, espandere abbreviazioni e normalizzare shorthand di dominio nei ticket. Combinerai correzione spelling, dizionari di lookup e regole custom evitando cambiamenti dannosi a entità e codici chiave.
Tipi comuni di errori nel testo di supportoCorrezione con dizionario e distanza di editLessici abbreviazioni dominio customStrategie di correzione contestualiProtezione entità e codiciLezione 6Compromessi rimozione stopword e liste stopword configurabili per domini ticket di supportoEsamina i compromessi della rimozione stopword nei domini ticket di supporto. Progetterai liste stopword configurabili, valuterai il loro impatto sui modelli e gestirai parole funzionali specifiche del dominio che possono portare intent sottili.
Liste stopword standard vs dominioImpatto su feature bag-of-wordsEffetto su embedding e transformerSet stopword configurabili e stratificatiValutazione rimozione con ablazioneLezione 7Fondamenti normalizzazione testo: minuscolo, normalizzazione Unicode, gestione spazi bianchi e a capoCopre passi core di normalizzazione testo come minuscolo, normalizzazione Unicode e pulizia spazi bianchi. Discutiamo ordine operazioni, caveat specifici della lingua e preservazione cue di formattazione importanti.
Regole minuscolo e preservazione maiuscoleForme normalizzazione UnicodeGestione accenti e simboli specialiPulizia spazi bianchi e a capoOrdinamento operazioni normalizzazioneLezione 8Strategie splitting dati: split basati su tempo, campionamento stratificato per topic/sentiment e considerazioni cross-validation nidificataStudia strategie splitting dati adattate a dati ticket temporali ed etichettati. Confrontiamo split basati su tempo, campionamento stratificato per topic o sentiment e cross-validation nidificata per valutazione modello robusta.
Holdout, k-fold e split temporaliStratificazione per topic e sentimentPrevenzione leakage dati temporaliWorkflow cross-validation nidificataAllineamento split con obiettivi businessLezione 9Gestione URL, indirizzi email, snippet codice e identificatori nel testo (mascheramento vs preservazione)Impara strategie per gestire URL, email, snippet codice e identificatori nel testo. Confrontiamo mascheramento, normalizzazione e scelte di preservazione, focalizzandoci su privacy, deduplicazione e implicazioni performance modello.
Rilevamento pattern URL ed emailRegole mascheramento vs normalizzazioneRappresentazione sicura snippet codiceGestione identificatori ticket e utenteConsiderazioni privacy e leakageLezione 10Comprensione schema CSV e tipi dati (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Impara a interpretare schemi CSV per dataset ticket e assegnare tipi dati corretti. Copriamo parsing identificatori, timestamp, booleani e campi testo, più controlli validazione che prevengono errori downstream sottili.
Ispezione header e righe campioneAssegnazione tipi dati colonna robustiValidazione timestamp e IDRilevamento tipi malformati o mistiValidazione schema nei pipelineLezione 11Tecniche per rilevare e quantificare valori mancanti e rumore etichette (pattern missingness, controlli consistenza etichette, metriche inter-annotator)Impara a rilevare valori mancanti ed etichette rumorose nei dataset ticket di supporto. Copriamo pattern missingness, controlli consistenza etichette e metriche accordo inter-annotator per quantificare qualità etichette e guidare decisioni pulizia.
Tipi missingness nei dataset ticketVisualizzazione pattern missingnessRilevamento etichette inconsistentiMetriche accordo inter-annotatorEuristici per flag rumore etichetteLezione 12Creazione pipeline riproducibili e versionamento dataset puliti (data contracts, hashing)Impara a costruire pipeline preprocessing riproducibili e dataset puliti versionati. Copriamo design pipeline modulare, gestione configurazione, hashing e data contracts che mantengono modelli, codice e dati allineati nel tempo.
Progettazione passi preprocessing modulariTracciamento configurazione e parametriHashing dataset raw e processatiData contracts e garanzie schemaLogging e audit trail cambiamentiLezione 13Parsing date/ora e gestione timezone, derivazione feature temporali (daypart, weekday, recency)Comprendi come parsare campi date e ora eterogenei, gestire timezone e derivare feature temporali. Focalizziamo su parsing robusto, normalizzazione a tempo canonico e feature ingegnerizzate come recency e stagionalità.
Parsing formati date eterogeneiStrategie normalizzazione timezoneGestione timestamp mancanti o invalidiDerivazione feature recency ed etàDaypart, weekday e stagionalitàLezione 14Imputazione e trattamento colonne non-testo (resolved, resolution_time_hours, channel) per modelingEsplora imputazione e preprocessing per colonne non-testo come stato risoluzione, tempo risoluzione e canale. Discutiamo strategie codifica, rischi leakage e come allineare queste feature con testo per modeling.
Profiling colonne ticket non-testoImputazione durate numericheCodifica campi status categoriciEvitare target leakage nelle featureModeling congiunto con segnali testo