Pelajaran 1Pengendalian metadata saluran (corak token khusus saluran, pengkodan metadata)Fahami cara memproses metadata saluran seperti sembang, e-mel dan log telefon. Kami meliputi corak token khusus saluran, strategi pengkodan dan cara menggabungkan metadata dengan teks untuk pemodelan yang lebih kaya.
Pendaftaran saluran sokongan dan medanCorak token khusus saluranPengkodan one-hot dan embeddingMenggabungkan ciri teks dan metadataPengendalian metadata saluran yang hilangPelajaran 2Pengendalian emoji, emotikon dan token tidak standard serta pemetaan kepada isyarat sentimenKaji cara menormalkan emoji, emotikon dan token tidak standard lain sambil mengekalkan sentimen. Kami membincangkan strategi pemetaan, leksikon dan cara mengintegrasikan isyarat ini ke dalam model sentimen dan niat hiliran.
Pendaftaran penggunaan emoji dan emotikonPengendalian dan normalisasi UnicodeMemetakan token kepada skor sentimenMembina leksikon emoji tersuaiMengintegrasikan isyarat ke dalam modelPelajaran 3Tanda baca, kontraksi dan strategi tokenisasi untuk teks sokongan Bahasa InggerisPeriksa tanda baca, kontraksi dan strategi tokenisasi untuk teks sokongan Bahasa Inggeris. Kami membandingkan tokenizer berasaskan peraturan dan perpustakaan, mengendalikan kes hujung dan menyelaraskan tokenisasi dengan keperluan model hiliran.
Peranan tanda baca dalam tiket sokonganMemperluas dan menormalkan kontraksiTokenizer berasaskan peraturan vs statistikPengendalian URL dan emoji dalam tokenTokenisasi untuk model transformerPelajaran 4Stemming vs lematisasi: algoritma, perpustakaan dan bila menggunakan setiap satuBanding pendekatan stemming dan lematisasi, termasuk algoritma dan perpustakaan. Anda akan belajar bila menggunakan kaedah setiap satu dalam aliran kerja tiket sokongan dan bagaimana ia mempengaruhi saiz kosa kata dan tingkah laku model.
Stemmer berasaskan peraturan dan algoritmikLemmatizer berasaskan kamusPilihan perpustakaan dan prestasiKesan kepada kosa kata dan kekuranganPemilihan kaedah berdasarkan tugasPelajaran 5Pengendalian kesilapan ejaan, singkatan dan aksara khusus domain (pembetulan ejaan, kamus rujukan)Jelajahi kaedah untuk membetulkan ejaan, memperluas singkatan dan menormalkan aksara domain dalam tiket. Anda akan menggabungkan pembetulan ejaan, kamus rujukan dan peraturan tersuai sambil mengelakkan perubahan berbahaya kepada entiti dan kod utama.
Jenis ralat biasa dalam teks sokonganPembetulan kamus dan jarak editLeksikon singkatan domain tersuaiStrategi pembetulan berasaskan konteksMelindungi entiti dan kodPelajaran 6Kelemahan penyingkiran stopword dan senarai stopword yang boleh dikonfigurasi untuk domain tiket sokonganPeriksa kelemahan penyingkiran stopword dalam domain tiket sokongan. Anda akan mereka senarai stopword yang boleh dikonfigurasi, menilai kesannya kepada model dan mengendalikan perkataan fungsi khusus domain yang mungkin membawa niat halus.
Senarai stopword standard vs domainKesan kepada ciri beg-perkataanKesan kepada embedding dan transformerSet stopword berlapis yang boleh dikonfigurasiMenilai penyingkiran dengan ablasiPelajaran 7Asas normalisasi teks: huruf kecil, normalisasi Unicode, pengendalian ruang kosong dan pemisah barisLiputi langkah normalisasi teks teras seperti huruf kecil, normalisasi Unicode dan pembersihan ruang kosong. Kami membincangkan susunan operasi, perkara khusus bahasa dan mengekalkan petunjuk format yang penting.
Peraturan huruf kecil dan pemeliharaan kesBentuk normalisasi UnicodePengendalian aksen dan simbol khasPembersihan ruang kosong dan pemisah barisSusunan operasi normalisasiPelajaran 8Strategi pembahagian data: pembahagian berasaskan masa, pensampelan berstrata mengikut topik/sentimen dan pertimbangan validasi silang bersarangKaji strategi pembahagian data yang disesuaikan untuk data tiket temporal dan berlabel. Kami membandingkan pembahagian berasaskan masa, pensampelan berstrata mengikut topik atau sentimen dan validasi silang bersarang untuk penilaian model yang kukuh.
Holdout, k-fold dan pembahagian temporalStratifikasi mengikut topik dan sentimenMencegah kebocoran data temporalAliran kerja validasi silang bersarangMenyelaraskan pembahagian dengan matlamat perniagaanPelajaran 9Pengendalian URL, alamat e-mel, petikan kod dan pengenalan dalam teks (penyamaran vs pemeliharaan)Belajar strategi untuk mengendalikan URL, e-mel, petikan kod dan pengenalan dalam teks. Kami membandingkan pilihan penyamaran, normalisasi dan pemeliharaan, memberi tumpuan kepada privasi, deduplikasi dan implikasi prestasi model.
Mengesan corak URL dan e-melPeraturan penyamaran versus normalisasiMewakili petikan kod dengan selamatPengendalian pengenalan tiket dan penggunaPertimbangan privasi dan kebocoranPelajaran 10Memahami skema CSV dan jenis data (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Belajar mentafsir skema CSV untuk set data tiket dan memberikan jenis data yang betul. Kami meliputi penghuraian pengenalan, cap masa, boolean dan medan teks, ditambah semakan validasi yang mencegah ralat hiliran halus.
Memeriksa header dan baris sampelMementukan jenis data lajur yang kukuhMemvalidasi cap masa dan IDMengesan jenis yang rosak atau campur adukValidasi skema dalam saluran paipPelajaran 11Teknik untuk mengesan dan mengukur nilai hilang dan bunyi label (corak kekurangan, semakan konsistensi label, metrik inter-annotator)Belajar mengesan nilai hilang dan label bising dalam set data tiket sokongan. Kami meliputi corak kekurangan, semakan konsistensi label dan metrik persetujuan inter-annotator untuk mengukur kualiti label dan membimbing keputusan pembersihan.
Jenis kekurangan dalam set data tiketMembayangkan corak kekuranganMengesan label yang tidak konsistenMetrik persetujuan inter-annotatorHeuristik untuk menandakan bunyi labelPelajaran 12Mencipta saluran paip yang boleh diulang dan pensijilan set data yang dibersihkan (kontrak data, hashing)Belajar membina saluran pra-pemprosesan yang boleh diulang dan set data yang dibersihkan yang disijilkan. Kami meliputi reka bentuk saluran modular, pengurusan konfigurasi, hashing dan kontrak data yang mengekalkan model, kod dan data selari dari masa ke masa.
Mereka bentuk langkah pra-pemprosesan modularJejak konfigurasi dan parameterHashing set data mentah dan diprosesKontrak data dan jaminan skemaLog dan jejak audit untuk perubahanPelajaran 13Penghuraian tarikh/masa dan pengendalian zon masa, memperoleh ciri temporal (bahagian hari, hari dalam minggu, kebaruan)Fahami cara menghurai medan tarikh dan masa yang berbeza, mengendalikan zon masa dan memperoleh ciri temporal. Kami memberi tumpuan kepada penghuraian kukuh, normalisasi kepada masa kanonikal dan ciri kejuruteraan seperti kebaruan dan musiman.
Menghurai format tarikh yang berbezaStrategi normalisasi zon masaPengendalian cap masa yang hilang atau tidak sahMemperoleh ciri kebaruan dan umurBahagian hari, hari dalam minggu dan musimanPelajaran 14Imputasi dan rawatan lajur bukan teks (resolved, resolution_time_hours, channel) untuk pemodelanJelajahi imputasi dan pra-pemprosesan untuk lajur bukan teks seperti status penyelesaian, masa penyelesaian dan saluran. Kami membincangkan strategi pengkodan, risiko kebocoran dan cara menyelaraskan ciri ini dengan teks untuk pemodelan.
Profil lajur tiket bukan teksImputasi untuk tempoh nomborPengkodan medan status kategoriMengelakkan kebocoran sasaran dalam ciriPemodelan bersama dengan isyarat teks