1. leckeCsatorna metaadatok kezelése (csatornaspecifikus token minták, metaadat kódolás)Megismered, hogyan kell feldolgozni a csatorna metaadatokat, mint például chat, email és telefon naplók. Bemutatjuk a csatornaspecifikus token mintákat, kódolási stratégiákat, valamint azt, hogyan kell kombinálni a metaadatokat a szöveggel a gazdagabb modellezés érdekében.
Támogatási csatornák és mezők katalógusaCsatornaspecifikus token mintákOne-hot és embedding kódolásokSzöveg és metaadat jellemzők kombinálásaHiányzó csatorna metaadatok kezelése2. leckeEmoji, emotikon és nem szabványos token kezelés, hangulati jelekre való leképezésTanulmányozd meg, hogyan kell normalizálni az emojikat, emotikonokat és egyéb nem szabványos tokent, miközben megőrzöd a hangulatot. Megbeszéljük a leképezési stratégiákat, lexikonokat, és azt, hogyan kell ezeket a jeleket integrálni a downstream hangulat- és szándék modellekbe.
Emoji és emotikon használat katalógusaUnicode kezelés és normalizálásTokenek hangulati pontszámokra való leképezéseEgyedi emoji lexikonok készítéseJelek integrálása modellekbe3. leckeVesszők, rövidítések és tokenizálási stratégiák angol támogatási szövegekhezVizsgáld meg a vesszőket, rövidítéseket és tokenizálási stratégiákat angol támogatási szövegekhez. Összehasonlítjuk a szabályalapú és könyvtári tokenizálókat, kezeljük a szélsőséges eseteket, és igazítjuk a tokenizálást a downstream modell követelményeihez.
Vesszők szerepe támogatási jegyekbenRövidítések kibontása és normalizálásaSzabályalapú vs statisztikai tokenizálóURL-ek és emojik kezelése tokenekbenTokenizálás transformer modellekhez4. leckeSzótőkeresés vs lemmatizálás: algoritmusok, könyvtárak és alkalmazási esetekHasonlítsd össze a szótőkeresést és lemmatizálást, beleértve az algoritmusokat és könyvtárakat. Megtanulod, mikor kell alkalmazni mindegyik módszert a támogatási jegy munkafolyamatokban, és hogyan befolyásolják a szókincs méretét és a modell viselkedését.
Szabályalapú és algoritmikus szótőkeresőkSzótár alapú lemmatizálóKönyvtár választások és teljesítményHatása a szókincsre és ritkításraFeladatvezérelt módszer választás5. leckeÍráshelyességi hibák, rövidítések és tartomány-specifikus rövidítések kezelése (írásjavítás, keresési szótárak)Fedezd fel a helyesírás javításának, rövidítések kibontásának és tartomány-specifikus rövidítések normalizálásának módszereit jegyekben. Kombináld az írásjavítást, keresési szótárakat és egyedi szabályokat anélkül, hogy károsítanád a kulcs entitásokat és kódokat.
Gyakori hiba típusok támogatási szövegbenSzótári és szerkesztési távolság javításEgyedi tartomány rövidítés lexikonokKontextus-tudatos javítási stratégiákEntitások és kódok védelme6. leckeStopword eltávolítás kompromisszumai és konfigurálható stopword listák támogatási jegy tartományokhozVizsgáld meg a stopword eltávolítás kompromisszumait támogatási jegy tartományokban. Tervezz konfigurálható stopword listákat, értékeld hatásukat a modellekre, és kezeld a tartomány-specifikus funkció szavakat, amelyek finom szándékot hordozhatnak.
Standard vs tartomány stopword listákHatása bag-of-words jellemzőkreHatása embeddingekre és transformerekreKonfigurálható és rétegzett stopword halmazokEltávolítás értékelése ablációval7. leckeSzöveg normalizálás alapjai: kisbetűsítés, Unicode normalizálás, whitespace és sortörés kezelésFedezd fel a szöveg normalizálás alapvető lépéseit, mint kisbetűsítés, Unicode normalizálás és whitespace tisztítás. Megbeszéljük a műveletek sorrendjét, nyelv-specifikus figyelmeztetéseket és fontos formázási jelek megőrzését.
Kisbetűsítés és nagybetű megőrzési szabályokUnicode normalizálási formákÉkezetek és speciális szimbólumok kezeléseWhitespace és sortörés tisztításNormalizálási műveletek sorrendje8. leckeAdatfelosztási stratégiák: időalapú felosztások, rétegzett mintavétel témára/hangulatra, nested keresztvalidációTanulmányozd az adatfelosztási stratégiákat, amelyek illeszkednek az időbeli és címkézett jegy adatokhoz. Összehasonlítjuk az időalapú felosztásokat, rétegzett mintavételt témára vagy hangulatra, és nested keresztvalidációt robusztus modell értékelésre.
Holdout, k-fold és időbeli felosztásokRétegzés témára és hangulatraIdőbeli adat szivárgás megelőzéseNested keresztvalidáció munkafolyamatokFelosztások üzleti célokhoz igazítása9. leckeURL-ek, email címek, kódrészletek és azonosítók kezelése szövegben (maszkolás vs megőrzés)Tanulj stratégiákat URL-ek, emailek, kódrészletek és azonosítók kezelésére szövegben. Összehasonlítjuk a maszkolást, normalizálást és megőrzést, fókuszban a privacy, deduplikáció és modell teljesítmény implikációkkal.
URL és email minták detektálásaMaszkolás vs normalizálási szabályokKódrészletek biztonságos ábrázolásaJegy és felhasználó azonosítók kezelésePrivacy és szivárgás megfontolások10. leckeCSV séma és adattípusok megértése (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Tanulj meg értelmezni CSV sémákat jegy adatkészletekhez és rendelj helyes adattípusokat. Feldolgozzuk az azonosítók, időbélyegek, booleánok és szövegmezők elemzését, plusz validációs ellenőrzéseket, amelyek megelőzik a finom downstream hibákat.
Fejlécek és minta sorok vizsgálataRobusztus oszlop adattípus hozzárendelésIdőbélyegek és ID-k validálásaHibás vagy vegyes típusok detektálásaSéma validáció pipelineokban11. leckeTechnikák hiányzó értékek és címke zaj detektálására és számszerűsítésére (hiányzási minták, címke konzisztencia ellenőrzések, inter-annotátor metrikák)Tanulj meg detektálni hiányzó értékeket és zajos címkéket támogatási jegy adatkészletekben. Feldolgozzuk a hiányzási mintákat, címke konzisztencia ellenőrzéseket és inter-annotátor egyezség metrikákat a címke minőség számszerűsítésére és tisztítási döntések irányítására.
Hiányzási típusok jegy adatkészletekbenHiányzási minták vizualizálásaInkonzisztens címkék detektálásaInter-annotátor egyezség metrikákHeurisztikák címke zaj jelzésére12. leckeReprodukálható pipelineok készítése és tisztított adatkészletek verziózása (adat szerződések, hashing)Tanulj meg reprodukálható előfeldolgozási pipelineokat építeni és verziózott tisztított adatkészleteket. Feldolgozzuk a moduláris pipeline tervezést, konfiguráció kezelést, hashinget és adat szerződéseket, amelyek modelleket, kódot és adatokat igazítottak tartják idővel.
Moduláris előfeldolgozási lépések tervezéseKonfiguráció és paraméter követésNyers és feldolgozott adatkészletek hashingjeAdat szerződések és séma garanciákVáltozások naplózása és audit nyomok13. leckeDátum/idő elemzés és időzóna kezelés, temporális jellemzők levezetése (napszak, hétnap, frissesség)Értsd meg, hogyan kell elemezni heterogén dátum és idő mezőket, kezelni időzónákat és levezetni temporális jellemzőket. Fókuszban a robusztus elemzés, normalizálás kanonikus időre és tervezett jellemzők mint frissesség és szezonalitás.
Heterogén dátum formátumok elemzéseIdőzóna normalizálási stratégiákHiányzó vagy érvénytelen időbélyegek kezeléseFrissesség és kor jellemzők levezetéseNapszak, hétnap és szezonalitás14. leckeNem-szöveg oszlopok imputációja és kezelése (resolved, resolution_time_hours, channel) modellezéshezFedezd fel az imputációt és előfeldolgozást nem-szöveg oszlopokhoz mint megoldási státusz, megoldási idő és csatorna. Megbeszéljük a kódolási stratégiákat, szivárgás kockázatokat és hogyan kell igazítani ezeket a jellemzőket szöveggel modellezéshez.
Nem-szöveg jegy oszlopok profilozásaNumerikus időtartamok imputációjaKategorikus státusz mezők kódolásaCél szivárgás elkerülése jellemzőkbenKözös modellezés szöveg jelekkel