Pelajaran 1TF-IDF, hashing, dan penyuritan dokumen: bila guna setiap satu dan pilihan parameterBahagian ini membandingkan TF-IDF, hashing, dan penyuritan dokumen untuk perwakilan teks. Anda akan belajar kekuatan, kelemahan, dan strategi penalaan, serta cara memilih kaedah dan parameter untuk tugas carian, kluster, dan pengelasan.
Skim penimbangan TF-IDF dan penormalkanTrik hashing, pelanggaran, dan saiz ruang ciriMemilih n-gram dan peraturan pencangkulan perbendaharaanBila vektor jarang mengalahkan penyuritan padatDimensi penyuritan dan pilihan pengumpulanMenilai perwakilan untuk tugas hiliranPelajaran 2Pencelotan dan pemilihan n-gram: unigram, bigram, trigram; penapisan frekuensi dan PMIBahagian ini terperinci pencelotan dan pemilihan n-gram. Anda akan jana unigram, bigram, dan trigram, gunakan penapis frekuensi dan PMI, dan bina perbendaharaan kukuh untuk model dan analisis penerokaan.
Menjana n-gram dengan tingkap gelongsorAmbang frekuensi minimum dan potonganPMI dan ukuran persatuan lain untuk n-gramMengendalikan ungkapan berperkataan berganda dan frasaSenarai stop khusus domain dan penapis kolokasiMenilai set n-gram pada tugas hiliranPelajaran 3Pencelotan frasa utama: RAKE, YAKE, TextRank dan pemilihan penilaian/ambangBahagian ini meliputi pencelotan frasa utama dengan RAKE, YAKE, dan TextRank. Anda akan belajar pra-pemprosesan, penilaian, pemilihan ambang, dan penilaian, serta cara menyesuaikan kaedah untuk domain seperti tiket sokongan atau ulasan.
Pra-pemprosesan teks dan penjanaan frasa calonPenilaian RAKE, senarai stop, dan had panjang frasaCiri YAKE, saiz tingkap, dan tetapan bahasaPembinaan graf TextRank dan penimbangan tepiPenormalkan skor dan kalibrasi ambangMenilai frasa utama dengan label emas atau pakarPelajaran 4Pengurangan dimensi untuk topik: LSA (SVD), UMAP, t-SNE untuk visualisasiBahagian ini meliputi pengurangan dimensi untuk penerokaan topik. Anda akan gunakan LSA dengan SVD, UMAP, dan t-SNE untuk unjakan vektor dokumen atau topik, nala parameter, dan mereka bentuk visualisasi jelas dan boleh dipercayai.
LSA dengan SVD terpotong untuk struktur topikMemilih k dan mentafsir vektor tunggalParameter UMAP untuk struktur global berbanding lokalPerplexiti t-SNE, kadar pembelajaran, dan iterasiPilihan pengkodan visual untuk plot tabur topikPerangkap dan pengesahan kluster visualPelajaran 5Penyuritan perkataan dan ayat: Word2Vec, GloVe, FastText, penyuritan Transformer (variasi BERT)Bahagian ini meneroka penyuritan perkataan dan ayat, dari Word2Vec, GloVe, dan FastText kepada model berasaskan transformer. Anda akan belajar latihan, penalaan halus, pengumpulan, dan cara memilih penyuritan untuk tugas analitik berbeza.
Arkitektur Word2Vec dan tetapan latihanMatriks kehadiran GloVe dan hiperparameterPemodelan subperkataan FastText dan perkataan jarangStrategi pengumpulan ayat untuk penyuritan statikPenyuritan Transformer dan variasi BERTPenalaan halus khusus tugas berbanding penyaman bekuPelajaran 6Pendekatan topik neural dan BERTopic: kluster penyuritan, penggabungan topik dan kebolehbacaanBahagian ini membentangkan pendekatan topik neural, memberi tumpuan kepada BERTopic. Anda akan kluster penyuritan, kurangkan dimensi, sempurnakan topik, gabung atau pecah kluster, dan tingkatkan kebolehbacaan dengan istilah wakil dan label.
Pemilihan penyuritan dan pra-pemprosesan untuk topikKonfigurasi UMAP dan HDBSCAN dalam BERTopicPerwakilan topik dan penimbangan c-TF-IDFPenggabungan, pemecahan, dan pencangkulan topik bisingMeningkatkan label topik dengan pengetahuan domainMenilai topik neural berbanding asas LDAPelajaran 7Perlombongan corak kerap dan peraturan persatuan untuk istilah aduan serentakBahagian ini memperkenalkan perlombongan corak kerap dan peraturan persatuan untuk teks. Anda akan ubah dokumen kepada transaksi, lombong istilah aduan serentak, nala sokongan dan keyakinan, dan tafsir peraturan untuk pandangan.
Membina transaksi istilah dari dokumenMemilih ambang sokongan dan keyakinanAsas algoritma Apriori dan FP-GrowthMentafsir peraturan persatuan dan angkatanMenapis corak remeh atau berlebihanMenggunakan corak untuk menyempurnakan taksonomi dan amaranPelajaran 8Pemodelan topik tidak diawasi: konfigurasi LDA, ukuran koheren, penalaan bilangan topikBahagian ini memperkenalkan pemodelan topik tidak diawasi dengan LDA. Anda akan konfigurasi keutamaan, laluan, dan pengoptimuman, gunakan koheren dan kebingungan, dan mereka bentuk eksperimen untuk memilih bilangan topik yang imbang kebolehbacaan dan kestabilan.
Persediaan beg-perkataan dan kawalan stopkataKeutamaan Dirichlet: alpha, eta, dan kekeringanLaluan, iterasi, dan diagnostik konvergensiMetrik koheren topik dan variannyaPenalaan bilangan topik dengan carian gridSemakan kestabilan dan semakan topik kualitatifPelajaran 9Ciri leksikal asas: kiraan token, kiraan aksara, nisbah token unik, skor kebolehbacaanBahagian ini memberi tumpuan kepada ciri leksikal asas untuk analitik teks. Anda akan mengira kiraan token dan aksara, nisbah jenis-token, dan skor kebolehbacaan, serta belajar bila ciri mudah ini mengatasi perwakilan kompleks.
Pilihan tokenisasi dan ciri kiraan tokenKiraan tahap aksara dan taburan panjangNisbah jenis-token dan kekayaan perbendaharaanNisbah stopkata dan isyarat berasaskan tanda bacaIndeks kebolehbacaan dan pemilihan formulaMenggabungkan ciri leksikal dengan isyarat lainPelajaran 10Reka bentuk skema anotasi untuk label manual: jenis isu, sentimen, keatasan, tag topikBahagian ini menerangkan cara mereka bentuk skema anotasi untuk label manual. Anda akan tentukan jenis isu, sentimen, keatasan, dan tag topik, tulis garis panduan jelas, endalikan ketaksaan, dan ukur persetujuan untuk menyempurnakan skema secara iteratif.
Menentukan taksonomi label dan ketepatan butirMengoperasionalkan label sentimen dan emosiMemodelkan keatasan, kesan, dan tahap keutamaanMereka bentuk struktur tag topik pelabelan bergandaMenulis garis panduan anotasi dengan contohPersetujuan antara-anotator dan semakan skema