Lecția 1Gestionarea metadatelor canalului (modele de token specifice canalului, codarea metadatelor)Înțelegeți cum să procesați metadatele canalului precum chat, email și jurnale telefonice. Acoperim modele de token specifice canalului, strategii de codare și modul în care să combinați metadatele cu textul pentru modelare mai bogată.
Catalogarea canalelor de suport și câmpuriModele de token specifice canaluluiCodări one-hot și embeddingCombinarea caracteristicilor text și metadateGestionarea metadatelor lipsă ale canaluluiLecția 2Gestionarea emoji-urilor, emoticoanelor și tokenilor non-standard și maparea la semnale de sentimentStudiați cum să normalizați emoji-urile, emoticoanele și alți tokeni non-standard păstrând sentimentul. Discutăm strategii de mapare, lexicoane și integrarea acestor semnale în modelele de sentiment și intenție din aval.
Catalogarea utilizării emoji și emoticoaneGestionarea Unicode și normalizareaMaparea tokenilor la scoruri de sentimentConstruirea lexicoanelor personalizate de emojiIntegrarea semnalelor în modeleLecția 3Punctuație, contracții și strategii de tokenizare pentru textul de suport în englezăExaminați punctuația, contracțiile și strategiile de tokenizare pentru textul de suport în engleză. Comparăm tokenizatoare bazate pe reguli și biblioteci, gestionăm cazuri de margine și aliniem tokenizarea cu cerințele modelului din aval.
Rolul punctuației în ticketele de suportExtinderea și normalizarea contracțiilorTokenizatoare bazate pe reguli vs statisticeGestionarea URL-urilor și emoji-urilor în tokeniTokenizare pentru modele transformerLecția 4Stemming vs lematizare: algoritmi, biblioteci și când să aplicați fiecareComparați abordările stemming și lematizare, inclusiv algoritmi și biblioteci. Veți învăța când să aplicați fiecare metodă în fluxurile de lucru cu tickete de suport și cum afectează dimensiunea vocabularului și comportamentul modelului.
Stemmere bazate pe reguli și algoritmiceLematizatoare bazate pe dicționareAlegerea bibliotecilor și performanțaImpact asupra vocabularului și sparsitățiiSelecția metodei bazată pe sarcinăLecția 5Gestionarea greșelilor de scriere, abrevierilor și prescurtărilor specifice domeniului (corecție ortografică, dicționare de căutare)Explorați metode pentru a corecta ortografia, extinde abrevierile și normaliza prescurtările de domeniu în tickete. Veți combina corecția ortografică, dicționare de căutare și reguli personalizate evitând modificări dăunătoare entităților și codurilor cheie.
Tipuri comune de erori în textul de suportCorecție bazată pe dicționar și distanță de editareLexicoane personalizate de abrevieri de domeniuStrategii de corecție conștiente de contextProtejarea entităților și codurilorLecția 6Compromisuri în eliminarea stopword-urilor și liste configurabile de stopword-uri pentru domeniile tixelor de suportExaminați compromisurile eliminării stopword-urilor în domeniile tixelor de suport. Veți proiecta liste configurabile de stopword-uri, evaluați impactul lor asupra modelelor și gestionați cuvinte funcționale specifice domeniului care pot purta intenții subtile.
Liste standard vs de domeniu de stopword-uriImpact asupra caracteristicilor bag-of-wordsEfect asupra embedding-urilor și transformerelorSeturi configurabile și stratificate de stopword-uriEvaluarea eliminării cu ablațieLecția 7Fundamentele normalizării textului: minuscule, normalizarea Unicode, gestionarea spațiilor albe și a întreruperilor de linieAcoperim pașii de bază ai normalizării textului precum minuscule, normalizarea Unicode și curățarea spațiilor albe. Discutăm ordinea operațiilor, particularități specifice limbajului și păstrarea indiciilor importante de formatare.
Reguli de minuscule și păstrare cazForme de normalizare UnicodeGestionarea accentelor și simbolurilor specialeCurățarea spațiilor albe și a întreruperilor de linieOrdinea operațiilor de normalizareLecția 8Strategii de divizare a datelor: divizări bazate pe timp, eșantionare stratificată pe subiect/sentiment și considerații de validare încrucișată imbricatăStudiați strategii de divizare a datelor adaptate datelor temporale și etichetate de tickete. Comparăm divizări bazate pe timp, eșantionare stratificată pe subiect sau sentiment și validare încrucișată imbricată pentru evaluare robustă a modelului.
Holdout, k-fold și divizări temporaleStratificare pe subiect și sentimentPrevenirea scurgerii temporale a datelorFluxuri de lucru de validare încrucișată imbricatăAlinierea divizărilor cu obiectivele de afaceriLecția 9Gestionarea URL-urilor, adreselor de email, fragmentele de cod și identificatorilor în text (mascare vs păstrare)Învățați strategii pentru gestionarea URL-urilor, email-urilor, fragmentelor de cod și identificatorilor în text. Comparăm alegerile de mascare, normalizare și păstrare, concentrându-ne pe implicații privind confidențialitatea, deduplicarea și performanța modelului.
Detectarea modelelor URL și emailReguli de mascare versus normalizareReprezentarea sigură a fragmentelor de codGestionarea identificatorilor de tickete și utilizatoriConsiderații de confidențialitate și scurgereLecția 10Înțelegerea schemei CSV și tipurilor de date (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Învățați să interpretați schemele CSV pentru seturile de date de tickete și să atribuiți tipuri de date corecte. Acoperim parsarea identificatorilor, timestamp-urilor, booleenilor și câmpurilor text, plus verificări de validare care previn erori subtile în aval.
Inspectarea antetelor și rândurilor de probăAtribuirea tipurilor robuste de date ale coloanelorValidarea timestamp-urilor și ID-urilorDetectarea tipurilor malformate sau mixteValidarea schemei în pipeline-uriLecția 11Tehnici pentru detectarea și cuantificarea valorilor lipsă și zgomotului de etichetă (modele de lipsă, verificări de consistență etichetă, metrici inter-anotatori)Învățați să detectați valorile lipsă și etichetele zgomotoase în seturile de date de tickete de suport. Acoperim modele de lipsă, verificări de consistență etichetă și metrici de acord inter-anotator pentru a cuantifica calitatea etichetelor și a ghida deciziile de curățare.
Tipuri de lipsă în seturile de date de ticketeVizualizarea modelelor de lipsăDetectarea etichetelor inconsistenteMetrici de acord inter-anotatorHeuristici pentru semnalarea zgomotului de etichetăLecția 12Crearea pipeline-urilor reproductibile și versionarea seturilor de date curățate (contracte de date, hashing)Învățați să construiți pipeline-uri de preprocesare reproductibile și seturi de date curățate versionate. Acoperim designul modular al pipeline-ului, gestionarea configurațiilor, hashing-ul și contractele de date care mențin modelele, codul și datele aliniate în timp.
Proiectarea pașilor modulari de preprocesareUrmărirea configurațiilor și parametrilorHashing seturi de date brute și procesateContracte de date și garanții de schemăJurnale și trasee de audit pentru modificăriLecția 13Parsarea datelor/oră și gestionarea fuselor orare, derivarea caracteristicilor temporale (perioadă de zi, zi a săptămânii, recență)Înțelegeți cum să parsati câmpuri eterogene de date și oră, să gestionați fusele orare și să derivați caracteristici temporale. Ne concentrăm pe parsare robustă, normalizare la timp canonic și caracteristici proiectate precum recența și sezonalitatea.
Parsarea formatelor eterogene de dateStrategii de normalizare a fuselor orareGestionarea timestamp-urilor lipsă sau invalideDerivarea caracteristicilor de recență și vârstăPerioadă de zi, zi a săptămânii și sezonalitateLecția 14Imputarea și tratarea coloanelor non-text (resolved, resolution_time_hours, channel) pentru modelareExplorați imputarea și preprocesarea pentru coloane non-text precum statusul de rezolvare, timpul de rezolvare și canal. Discutăm strategii de codare, riscuri de scurgere și alinierea acestor caracteristici cu textul pentru modelare.
Profilarea coloanelor non-text de ticketeImputare pentru durate numericeCodarea câmpurilor categorice de statusEvitarea scurgerii țintei în caracteristiciModelare comună cu semnale text