Pelajaran 1Penanganan metadata saluran (pola token spesifik saluran, pengkodean metadata)Pahami cara memproses metadata saluran seperti chat, email, dan log telepon. Kami membahas pola token spesifik saluran, strategi pengkodean, dan cara menggabungkan metadata dengan teks untuk pemodelan yang lebih kaya.
Katalogisasi saluran dukungan dan fieldPola token spesifik saluranPengkodean one-hot dan embeddingMenggabungkan fitur teks dan metadataPenanganan metadata saluran yang hilangPelajaran 2Penanganan emoji, emoticon, dan token non-standar serta pemetaan ke sinyal sentimenPelajari cara menormalkan emoji, emoticon, dan token non-standar lainnya sambil mempertahankan sentimen. Kami membahas strategi pemetaan, leksikon, dan cara mengintegrasikan sinyal ini ke dalam model sentimen dan intensi hilir.
Katalogisasi penggunaan emoji dan emoticonPenanganan dan normalisasi UnicodePemetaan token ke skor sentimenMembuat leksikon emoji khususMengintegrasikan sinyal ke dalam modelPelajaran 3Tanda baca, kontraksi, dan strategi tokenisasi untuk teks dukungan berbahasa InggrisPeriksa tanda baca, kontraksi, dan strategi tokenisasi untuk teks dukungan berbahasa Inggris. Kami membandingkan tokenizer berbasis aturan dan pustaka, menangani kasus tepi, dan menyelaraskan tokenisasi dengan persyaratan model hilir.
Peran tanda baca dalam tiket dukunganMemperluas dan menormalkan kontraksiTokenizer berbasis aturan vs statistikPenanganan URL dan emoji dalam tokenTokenisasi untuk model transformerPelajaran 4Stemming vs lematisasi: algoritma, pustaka, dan kapan menerapkan masing-masingBandingkan pendekatan stemming dan lematisasi, termasuk algoritma dan pustaka. Anda akan mempelajari kapan menerapkan setiap metode dalam alur kerja tiket dukungan dan bagaimana mereka memengaruhi ukuran kosa kata dan perilaku model.
Stemmer berbasis aturan dan algoritmikLemmatizer berbasis kamusPilihan pustaka dan performaDampak pada kosa kata dan sparsitySeleksi metode berbasis tugasPelajaran 5Penanganan kesalahan ejaan, singkatan, dan singkatan khusus domain (koreksi ejaan, kamus pencarian)Jelajahi metode untuk mengoreksi ejaan, memperluas singkatan, dan menormalkan singkatan domain dalam tiket. Anda akan menggabungkan koreksi ejaan, kamus pencarian, dan aturan khusus sambil menghindari perubahan berbahaya pada entitas dan kode kunci.
Jenis kesalahan umum dalam teks dukunganKoreksi kamus dan jarak editLeksikon singkatan domain khususStrategi koreksi berbasis konteksMelindungi entitas dan kodePelajaran 6Tradeoff penghapusan stopword dan daftar stopword yang dapat dikonfigurasi untuk domain tiket dukunganPeriksa tradeoff penghapusan stopword dalam domain tiket dukungan. Anda akan merancang daftar stopword yang dapat dikonfigurasi, mengevaluasi dampaknya pada model, dan menangani kata fungsi spesifik domain yang mungkin membawa intensi halus.
Daftar stopword standar vs domainDampak pada fitur bag-of-wordsEfek pada embedding dan transformerSet stopword berlapis yang dapat dikonfigurasiEvaluasi penghapusan dengan ablasiPelajaran 7Dasar-dasar normalisasi teks: konversi ke huruf kecil, normalisasi Unicode, penanganan spasi putih dan jeda barisBahas langkah normalisasi teks inti seperti konversi ke huruf kecil, normalisasi Unicode, dan pembersihan spasi putih. Kami membahas urutan operasi, peringatan spesifik bahasa, dan mempertahankan petunjuk pemformatan penting.
Aturan konversi huruf kecil dan pelestarian kasusBentuk normalisasi UnicodePenanganan aksen dan simbol khususPembersihan spasi putih dan jeda barisPengurutan operasi normalisasiPelajaran 8Strategi pemisahan data: pemisahan berbasis waktu, pengambilan sampel terstratifikasi berdasarkan topik/sentimen, dan pertimbangan validasi silang bersarangPelajari strategi pemisahan data yang disesuaikan dengan data tiket temporal dan berlabel. Kami membandingkan pemisahan berbasis waktu, pengambilan sampel terstratifikasi berdasarkan topik atau sentimen, dan validasi silang bersarang untuk evaluasi model yang kuat.
Holdout, k-fold, dan pemisahan temporalStratifikasi berdasarkan topik dan sentimenMencegah kebocoran data temporalAlur kerja validasi silang bersarangMenyelaraskan pemisahan dengan tujuan bisnisPelajaran 9Penanganan URL, alamat email, cuplikan kode, dan pengenal dalam teks (penyamaran vs pelestarian)Pelajari strategi untuk menangani URL, email, cuplikan kode, dan pengenal dalam teks. Kami membandingkan pilihan penyamaran, normalisasi, dan pelestarian, dengan fokus pada privasi, deduplikasi, dan implikasi performa model.
Mendeteksi pola URL dan emailAturan penyamaran versus normalisasiMewakili cuplikan kode dengan amanPenanganan pengenal tiket dan penggunaPertimbangan privasi dan kebocoranPelajaran 10Memahami skema CSV dan tipe data (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Pelajari cara menginterpretasikan skema CSV untuk dataset tiket dan menetapkan tipe data yang benar. Kami membahas parsing pengenal, timestamp, boolean, dan field teks, ditambah pemeriksaan validasi yang mencegah kesalahan hilir yang halus.
Memeriksa header dan baris sampelMenetapkan tipe data kolom yang kuatMemvalidasi timestamp dan IDMendeteksi tipe yang rusak atau campuranValidasi skema dalam pipelinePelajaran 11Teknik untuk mendeteksi dan mengukur nilai hilang dan noise label (pola missingness, pemeriksaan konsistensi label, metrik inter-annotator)Pelajari cara mendeteksi nilai hilang dan label berisik dalam dataset tiket dukungan. Kami membahas pola missingness, pemeriksaan konsistensi label, dan metrik kesepakatan inter-annotator untuk mengukur kualitas label dan memandu keputusan pembersihan.
Jenis missingness dalam dataset tiketMemvisualisasikan pola missingnessMendeteksi label yang tidak konsistenMetrik kesepakatan inter-annotatorHeuristik untuk menandai noise labelPelajaran 12Membuat pipeline yang dapat direproduksi dan versioning dataset yang dibersihkan (kontrak data, hashing)Pelajari cara membangun pipeline pra-pemrosesan yang dapat direproduksi dan dataset yang dibersihkan dengan versioning. Kami membahas desain pipeline modular, manajemen konfigurasi, hashing, dan kontrak data yang menjaga keselarasan model, kode, dan data seiring waktu.
Merancang langkah pra-pemrosesan modularPelacakan konfigurasi dan parameterHashing dataset mentah dan diprosesKontrak data dan jaminan skemaLogging dan jejak audit untuk perubahanPelajaran 13Parsing tanggal/waktu dan penanganan zona waktu, menurunkan fitur temporal (daypart, hari kerja, recency)Pahami cara mem-parsing field tanggal dan waktu yang heterogen, menangani zona waktu, dan menurunkan fitur temporal. Kami fokus pada parsing yang kuat, normalisasi ke waktu kanonik, dan fitur yang direkayasa seperti recency dan musiman.
Parsing format tanggal yang heterogenStrategi normalisasi zona waktuPenanganan timestamp hilang atau tidak validMenurunkan fitur recency dan usiaDaypart, hari kerja, dan musimanPelajaran 14Imputasi dan perlakuan kolom non-teks (resolved, resolution_time_hours, channel) untuk pemodelanJelajahi imputasi dan pra-pemrosesan untuk kolom non-teks seperti status resolusi, waktu resolusi, dan saluran. Kami membahas strategi pengkodean, risiko kebocoran, dan cara menyelaraskan fitur ini dengan teks untuk pemodelan.
Profil kolom tiket non-teksImputasi untuk durasi numerikPengkodean field status kategorikalMenghindari kebocoran target dalam fiturPemodelan bersama dengan sinyal teks