1-darsKanal metama'lumotlarini boshqarish (kanalga xos token naqshlari, metama'lumotlarni kodlash)Chat, email va telefon jurnallaridagi kanal metama'lumotlarini qanday qayta ishlashni tushuning. Biz kanalga xos token naqshlari, kodlash strategiyalari va metama'lumotlarni matn bilan boyitilgan modellashtirish uchun birlashtirishni ko'rib chiqamiz.
Qo'llab-quvvatlash kanallarini va maydonlarni kataloglashKanalga xos token naqshlariOne-hot va embedding kodlashlariMatn va metama'lumot xususiyatlarini birlashtirishYo'q kanal metama'lumotlarini boshqarish2-darsEmoji, emotsikon va nostandart tokenlarni boshqarish va kayfiyat signallariga xaritalashEmojilarni, emotsikonlarni va boshqa nostandart tokenlarni normalizatsiya qilishni o'rganing, shu bilan birga kayfiyatni saqlang. Biz xaritalash strategiyalari, leksikonlar va bu signallarni pastki kayfiyat va niyat modellariga integratsiya qilishni muhokama qilamiz.
Emoji va emotsikon ishlatilishini kataloglashUnicode boshqaruvi va normalizatsiyaTokenlarni kayfiyat ballariga xaritalashMaxsus emoji leksikonlarini qurishSignallarni modellariga integratsiya qilish3-darsIngliz qo'llab-quvvatlash matni uchun tinish belgilari, qisqartmalar va tokenizatsiya strategiyalariIngliz qo'llab-quvvatlash matni uchun tinish belgilari, qisqartmalar va tokenizatsiya strategiyalarini ko'rib chiqing. Biz qoida asosidagi va kutubxona tokenizatorlarini solishtiramiz, chegara holatlarni boshqaramiz va tokenizatsiyani pastki model talablariga moslashtiramiz.
Qo'llab-quvvatlash chiptalarida tinish belgilari roliQisqartmalarni kengaytirish va normalizatsiya qilishQoida asosidagi va statistik tokenizatorlarTokenlarda URL va emojilarni boshqarishTransformer modellar uchun tokenizatsiya4-darsPoya berish va lemmalashtirish: algoritmlar, kutubxonalar va har birini qachon qo'llashPoya berish va lemmalashtirish yondashuvlarini, shu jumladan algoritmlari va kutubxonalarini solishtiring. Siz qo'llab-quvvatlash chiptalari ish oqimlarida har bir usulni qachon qo'llashni va ularning lug'at hajmi va model xatti-harakatlariga ta'sirini o'rganasiz.
Qoida asosidagi va algoritmik poya beruvchilarLug'at asosidagi lemmalashtiruvchilarKutubxona tanlovlari va samaradorligiLug'at va siyrilikka ta'siriVazifa asosidagi usul tanlash5-darsImlo xatolarini, qisqartmalarni va domen xos qisqartmalarini boshqarish (imlo tuzatish, qidiruv lug'atlari)Chiptalardagi imlo xatolarini tuzatish, qisqartmalarni kengaytirish va domen qisqartmalarini normalizatsiya qilish usullarini o'rganing. Siz imlo tuzatish, qidiruv lug'atlari va maxsus qoidalarni birlashtirasiz, asosiy ob'ektlar va kodlarga zarar yetkazmaydigan o'zgarishlardan qochasiz.
Qo'llab-quvvatlash matnida keng tarqalgan xato turlariLug'at va tahrir masofasi tuzatishMaxsus domen qisqartma leksikonlariKontekstga mos tuzatish strategiyalariOb'ektlar va kodlarni himoya qilish6-darsTo'xtatish so'zlarini olib tashlash savdo-offs va qo'llab-quvvatlash chiptalari domenlari uchun sozlanadigan to'xtatish so'zlari ro'yxatlariQo'llab-quvvatlash chiptalari domenlarida to'xtatish so'zlarini olib tashlash savdo-offsini ko'rib chiqing. Siz sozlanadigan to'xtatish so'zlari ro'yxatlarini loyihalashtirasiz, ularning modellariga ta'sirini baholaysiz va nozik niyatni tashiydigan domen xos funksional so'zlarni boshqarasiz.
Standart va domen to'xtatish so'zlari ro'yxatlariSo'zlar sumkasi xususiyatlariga ta'siriEmbeddinglar va transformerlarga ta'siriSozlanadigan va qatlamli to'xtatish so'zlari to'plamlariAblatsiya bilan olib tashlashni baholash7-darsMatn normalizatsiyasi asoslari: kichik harflarga o'tkazish, Unicode normalizatsiyasi, bo'shliq va qator uzish belgilari boshqaruviKichik harflarga o'tkazish, Unicode normalizatsiyasi va bo'shliq tozalash kabi asosiy matn normalizatsiya bosqichlarini ko'rib chiqing. Biz operatsiyalar tartibi, til xos ehtiyot choralarini va muhim formatlash belgilarni saqlashni muhokama qilamiz.
Kichik harflarga o'tkazish va harf saqlash qoidalariUnicode normalizatsiya shakllariAktsentlar va maxsus belgilarni boshqarishBo'shliq va qator uzish tozalashNormalizatsiya operatsiyalarini tartiblash8-darsMa'lumotlarni bo'lish strategiyalari: vaqt asosidagi bo'lishlar, mavzu/kayfiyat bo'yicha stratifikatsiyalangan namunalash va ichma-ich cross-validation ko'rib chiqishlariVaqt va belgilangan chipta ma'lumotlari uchun moslashtirilgan ma'lumotlarni bo'lish strategiyalarini o'rganing. Biz vaqt asosidagi bo'lishlarni, mavzu va kayfiyat bo'yicha stratifikatsiyalangan namunalashni va mustahkam model bahosini solishtiramiz.
Holdout, k-fold va temporal bo'lishlarMavzu va kayfiyat bo'yicha stratifikatsiyaVaqt ma'lumotlari oqishi oldini olishIchma-ich cross-validation ish oqimlariBo'lishlarni biznes maqsadlari bilan moslashtirish9-darsMatnda URL, email manzillari, kod parchalarini va identifikatorlarni boshqarish (maskalash va saqlash)Matndagi URL, emaillar, kod parchalari va identifikatorlarni boshqarish strategiyalarini o'rganing. Biz maskalash, normalizatsiya va saqlash tanlovlarini solishtiramiz, maxfiylik, dublikatsiyalash va model samaradorligi ta'sirlariga e'tibor qaratamiz.
URL va email naqshlarini aniqlashMaskalashga qarshi normalizatsiya qoidalariKod parchasini xavfsiz ifodalashChipta va foydalanuvchi identifikatorlarini boshqarishMaxfiylik va oqish ko'rib chiqishlari10-darsCSV sxemasi va ma'lumot turlarini tushunish (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Chipta ma'lumotlar to'plamlari uchun CSV sxemalarini talqin qilishni va to'g'ri ma'lumot turlarini belgilashni o'rganing. Biz identifikatorlarni, vaqt belgilarni, boolean va matn maydonlarini pars qilishni, pastki xatolarni oldini oladigan validatsiya tekshiruvlarini ko'rib chiqamiz.
Sarlavha va namuna qatorlarni tekshirishMustahkam ustun ma'lumot turlarini belgilashVaqt belgilari va IDlarni validatsiya qilishNoto'g'ri yoki aralash turlarni aniqlashQuvurlarda sxema validatsiyasi11-darsYo'q qiymatlarni va belgi shovqinini aniqlash va miqdorini baholash texnikalari (yo'qlik naqshlari, belgi izchilligini tekshirish, annotatorlararo metrikalar)Qo'llab-quvvatlash chiptalari ma'lumotlar to'plamlarida yo'q qiymatlarni va shovqinli belgilarni aniqlashni o'rganing. Biz yo'qlik naqshlari, belgi izchilligini tekshirish va annotatorlararo kelishuv metrikalarini ko'rib chiqamiz, belgi sifatini baholash va tozalash qarorlarini yo'naltirish uchun.
Chipta ma'lumotlarida yo'qlik turlariYo'qlik naqshlarini vizualizatsiya qilishMos kelmaydigan belgilarni aniqlashAnnotatorlararo kelishuv metrikalariBelgi shovqinini belgilash heuristikasi12-darsQayta ishlash bo'yicha takrorlanadigan quvurlarni yaratish va tozalanadigan ma'lumotlar to'plamlarini versiyalash (ma'lumot shartnomalari, hashing)Takrorlanadigan oldindan qayta ishlash quvurlarini va versiyalangan tozalanadigan ma'lumotlar to'plamlarini qurishni o'rganing. Biz modulli quvur dizayni, konfiguratsiya boshqaruvi, hashing va vaqt o'tishi bilan modellar, kod va ma'lumotlarni moslashtirib turadigan ma'lumot shartnomalarini ko'rib chiqamiz.
Modulli oldindan qayta ishlash bosqichlarini loyihalashKonfiguratsiya va parametrlarini kuzatishXom va qayta ishlangan ma'lumotlar to'plamlarini hashingMa'lumot shartnomalari va sxema kafolatlariO'zgarishlar uchun logging va audit izlari13-darsSana/vaqt pars qilish va vaqt zonasi boshqaruvi, temporal xususiyatlarni chiqarish (kun qismi, hafta kuni, yaqinlik)Turli xil sana va vaqt maydonlarini pars qilish, vaqt zonalarini boshqarish va temporal xususiyatlarni chiqarishni tushuning. Biz mustahkam pars qilish, kanonik vaqtga normalizatsiya va yaqinlik va mavsumlilik kabi muhandislik xususiyatlariga e'tibor qaratamiz.
Turli xil sana formatlarini pars qilishVaqt zonasi normalizatsiya strategiyalariYo'q yoki noto'g'ri vaqt belgilarni boshqarishYaqinlik va yosh xususiyatlarini chiqarishKun qismi, hafta kuni va mavsumlilik14-darsModellashtirish uchun matn bo'lmagan ustunlarni imputation va davolash (resolved, resolution_time_hours, channel)Yechim holati, yechim vaqti va kanal kabi matn bo'lmagan ustunlar uchun imputation va oldindan qayta ishlashni o'rganing. Biz kodlash strategiyalari, oqish xavf-xatarlari va bu xususiyatlarni matn bilan modellashtirish uchun moslashtirishni muhokama qilamiz.
Matn bo'lmagan chipta ustunlarini profilaktika qilishRaqamli davomiyliklar uchun imputationKategorik holat maydonlarini kodlashXususiyatlarda maqsad oqishini oldini olishMatn signallari bilan birgalikda modellashtirish