Somo 1Kushughulikia metadata ya kituo (mifumo ya token maalum ya kituo, usimbuaji wa metadata)Elewa jinsi ya kuchakata metadata ya kituo kama vile mazungumzo, barua pepe na rekodi za simu. Tunashughulikia mifumo maalum ya token ya kituo, mikakati ya usimbuaji na jinsi ya kuchanganya metadata na maandishi kwa uundaji modeli matajiri zaidi.
Kukagua vituo vya msaada na nyanjaMifumo maalum ya token ya kituoUsimbuaji wa moja-joto na embeddingKuchanganya vipengele vya maandishi na metadataKushughulikia metadata ya kituo iliyokosekanaSomo 2Kushughulikia emoji, emoticon na token zisizo za kawaida na kuunganisha na ishara za hisiaSoma jinsi ya kurekebisha emoji, emoticon na token zingine zisizo za kawaida huku ukilinda hisia. Tunajadili mikakati ya kuunganisha, kamusi na jinsi ya kuunganisha ishara hizi kwenye modeli za hisia na nia za chini.
Kukagua matumizi ya emoji na emoticonKushughulikia Unicode na urekebishajiKuunganisha token na alama za hisiaKujenga kamusi maalum za emojiKuunganisha ishara kwenye modeliSomo 3Alama za kishazi, mikazo na mikakati ya tokenization kwa maandishi ya msaada ya KiingerezaChunguza alama za kishazi, mikazo na mikakati ya tokenization kwa maandishi ya msaada ya Kiingereza. Tunalinganisha tokenizers za kanuni na za maktaba, tunashughulikia hali za ukingo na kuunganisha tokenization na mahitaji ya modeli za chini.
Jukumu la alama za kishazi katika tiketi za msaadaKupanua na kurekebisha mikazoTokenizers za kanuni dhidi za takwimuKushughulikia URL na emoji katika tokenTokenization kwa modeli za transformerSomo 4Stemming dhidi ya lemmatization: algoriti, maktaba na lini kutumia kila mojaLinganisha mbinu za stemming na lemmatization, pamoja na algoriti na maktaba. Utajifunza lini kutumia kila njia katika michakato ya tiketi za msaada na jinsi zinavyoathiri ukubwa wa msamiati na tabia ya modeli.
Stemmers za kanuni na za algoritiLemmatizers za kamusiChaguo za maktaba na utendajiAthari kwa msamiati na sparsityUchaguzi wa njia unaotegemea kaziSomo 5Kushughulikia makosa ya tahajia, ufupisho na neno fupi maalum la nyanja (sahihisho la tahajia, kamusi za kutafuta)Chunguza mbinu za kusahihisha tahajia, kupanua ufupisho na kurekebisha neno fupi la nyanja katika tiketi. Utaunganisha sahihisho la tahajia, kamusi za kutafuta na kanuni maalum huku ukiepuka mabadiliko hatari kwa vyombo muhimu na kod
Aina za makosa ya kawaida katika maandishi ya msaadaSahihisho la kamusi na umbali wa kurekebishaKamusi za ufupisho maalum za nyanjaMikakati ya sahihisho inayofahamu muktadhaKulinda vyombo na kodSomo 6Uuzaji wa maneno ya kusimamisha na orodha za maneno ya kusimamisha zinazoweza kubadilishwa kwa nyanja za tiketi za msaadaChunguza maelewano ya kuondoa maneno ya kusimamisha katika nyanja za tiketi za msaada. Utaunda orodha za maneno ya kusimamisha zinazoweza kubadilishwa, kutathmini athari zao kwa modeli na kushughulikia maneno ya kazi maalum ya nyanja ambayo yanaweza kubeba nia ndogo.
Orodha za kawaida dhidi za nyanja za maneno ya kusimamishaAthari kwa vipengele vya mkoba wa manenoAthari kwa embeddings na transformersSeti za maneno ya kusimamisha zinazoweza kubadilishwa na tabakaKutathmini uondoaji kwa ablationSomo 7Misingi ya urekebishaji wa maandishi: kupunguza herufi, urekebishaji wa Unicode, kushughulikia nafasi nyeupe na mstariGhubiri hatua za msingi za urekebishaji wa maandishi kama vile kupunguza herufi, urekebishaji wa Unicode na kusafisha nafasi nyeupe. Tunajadili mpangilio wa shughuli, maoni maalum ya lugha na kulinda ishara muhimu za umbizo.
Kupunguza herufi na kanuni za kuhifadhi kesiAina za urekebishaji wa UnicodeKushughulikia laamu na alama maalumKusafisha nafasi nyeupe na mstariKupanga shughuli za urekebishajiSomo 8Mikakati ya kugawanya data: mgawanyo unaotegemea wakati, sampuli iliyopangwa kwa mada/hisia na kuzingatia ualiamshaweji mtiririkoSoma mikakati ya kugawanya data iliyofaa kwa data ya tiketi ya muda na iliyopangwa. Tunalinganisha mgawanyo unaotegemea wakati, sampuli iliyopangwa kwa mada au hisia na ualiamshaweji mtiririko uliopingana kwa tathmini thabiti ya modeli.
Holdout, k-fold na mgawanyo wa mudaKupangwa kwa mada na hisiaKuzuia uvujaji wa data wa mudaMichakato ya ualiamshaweji mtiririko uliopinganaKuunganisha mgawanyo na malengo ya biasharaSomo 9Kushughulikia URL, anwani za barua pepe, vipande vya kod na vitambulishi katika maandishi (kufunika dhidi ya kuhifadhi)Jifunze mikakati ya kushughulikia URL, barua pepe, vipande vya kod na vitambulishi katika maandishi. Tunalinganisha kufunika, urekebishaji na chaguo za kuhifadhi, tukilenga faragha, deduplication na athari za utendaji wa modeli.
Kugundua mifumo ya URL na barua pepeKanuni za kufunika dhidi ya urekebishajiKuwakilisha vipande vya kod kwa usalamaKushughulikia vitambulishi vya tiketi na mtumiajiKuzingatia faragha na uvujajiSomo 10Kuelewa muundo wa CSV na aina za data (ticket_id, created_at, customer_id, maandishi, kituo, imechanganyikiwa, saa_za_sheria, mada_ya_mkono, hisia_ya_mkono)Jifunze kutafsiri miundo ya CSV kwa seti za data za tiketi na kugawa aina sahihi za data. Tunashughulikia kuchanganua vitambulishi, muda, boolean na nyanja za maandishi, pamoja na ukaguzi unaozuia makosa madogo ya chini.
Kukagua vichwa na safu za sampuliKugawa aina za data za nguzo thabitiKuthibitisha muda na IDKugundua aina zilizoharibika au zilizochanganyikaUthibitisho wa muundo katika miferejiSomo 11Mbinu za kugundua na kupima thamani zilizokosekana na kelele ya lebo (mifumo ya kukosekana, ukaguzi wa uthabiti wa lebo, vipimo vya mshiriki-wa-mshiriki)Jifunze kugundua thamani zilizokosekana na lebo zenye kelele katika seti za data za tiketi za msaada. Tunashughulikia mifumo ya kukosekana, ukaguzi wa uthabiti wa lebo na vipimo vya makubaliano ya mshiriki-wa-mshiriki ili kupima ubora wa lebo na kuongoza maamuzi ya kusafisha.
Aina za kukosekana katika seti za data za tiketiKuonyesha mifumo ya kukosekanaKugundua lebo zisizo na uthabitiVipimo vya makubaliano ya mshiriki-wa-mshirikiKanuni za kuashiria kelele ya leboSomo 12Kujenga mifereji inayoweza kurudiwa na kutumia toleo la seti za data zilizosafishwa (mikataba ya data, hashing)Jifunze kujenga mifereji ya uchakataji awali inayoweza kurudiwa na seti za data zilizosafishwa zenye toleo. Tunashughulikia muundo wa mifereji ya moduli, usimamizi wa usanidi, hashing na mikataba ya data inayoweka modeli, kod na data zilizounganishwa kwa muda.
Kubuni hatua za uchakataji awali za moduliUfuatiliaji wa usanidi na vigezoHashing ya seti za data za ghafi na zilizochakatwaMikataba ya data na dhamana za muundoKuingiza na uchunguzi wa mabadilikoSomo 13Kuchanganua tarehe/muda na kushughulikia saa za eneo, kutokana na vipengele vya muda (sehemu ya siku, siku ya wiki, ukaribu)Elewa jinsi ya kuchanganua nyanja za tarehe na muda zisizo sawa, kushughulikia saa za eneo na kutokana na vipengele vya muda. Tunazingatia kuchanganua thabiti, urekebishaji kwa muda wa kawaida na vipengele vilivyoundwa kama ukaribu na msimu.
Kuchanganua miundo tofauti ya tareheMikakati ya urekebishaji wa saa za eneoKushughulikia muda uliokosekana au batiliKutokana na vipengele vya ukaribu na umriSehemu ya siku, siku ya wiki na msimuSomo 14Kujaza na matibabu ya nguzo zisizo za maandishi (imechanganyikiwa, saa_za_sheria, kituo) kwa uundaji modeliChunguza kujaza na uchakataji awali kwa nguzo zisizo za maandishi kama hali ya utatuzi, muda wa utatuzi na kituo. Tunajadili mikakati ya usimbuaji, hatari za uvujaji na jinsi ya kuunganisha vipengele hivi na maandishi kwa uundaji modeli.
Kutoa wasifu wa nguzo za tiketi zisizo za maandishiKujaza muda wa nambariUsimbuaji wa nyanja za hali ya jamiiKuepuka uvujaji wa lengo katika vipengeleUundaji modeli pamoja na ishara za maandishi