Pelajaran 1Pengesanan dan rawatan data luar untuk total_sessions dan total_spentKaji dan rawat data luar dalam total_sessions dan total_spent menggunakan visualisasi, statistik teguh, dan kaedah berasaskan model, memutuskan bila untuk hadkan, transformasi, atau kekalkan ekstrem berdasarkan isyarat churn dan kesan perniagaan.
Profiling ekor sesi dan perbelanjaanZ-skor dan z-skor teguhIQR dan had berasaskan persentilTransformasi vs memangkas data luarKesan kepada kestabilan model churnPelajaran 2Pembinaan saluran dan kebolehulan: Saluran sklearn, pemasa lajur, versyen datasetBina pra-pemprosesan boleh diulang dengan Saluran sklearn dan PemasaLajur, urus cabang ciri, jejak versyen dataset, dan pastikan transformasi konsisten antara persekitaran latihan dan pengeluaran.
Asas Saluran sklearnMenggunakan PemasaLajur dengan berkesanPemasa tersuai untuk data churnMenyimpan dan memuatkan saluranVersyen dataset dan ciriPelajaran 3Strategi imputasi untuk medan numerik dan kategorikal; kaedah sesuai mengikut jenis hilangFahami mekanisme hilang, profil jurang numerik dan kategorikal, dan gunakan min, median, mod, MICE, dan imputasi berasaskan model sambil mengekalkan taburan dan mengelakkan kebocoran sasaran dalam dataset churn.
Jenis hilang: MCAR, MAR, MNARKaedah imputasi numerik mudahStrategi imputasi kategorikalImputasi lanjutan dan berasaskan modelKebergantungan imputasi dan kebocoranPelajaran 4Kaedah penskalaan dan normalisasi: standardisasi, penskalaan teguh, transformasi log untuk perbelanjaan skewedBandingkan standardisasi, min-max, dan penskalaan teguh, gunakan transformasi log dan Box-Cox untuk perbelanjaan skewed, dan fahami bagaimana penskalaan berinteraksi dengan model churn berasaskan jarak, linear, dan pokok.
Bila penskalaan diperlukanStandardScaler vs MinMaxScalerPenskalaan teguh untuk ekor beratTransformasi log untuk perbelanjaan skewedKesan penskalaan kepada algoritmaPelajaran 5Penkodan pemboleh ubah kategorikal: one-hot, pengekodan sasaran, pengekodan ordinal dan bila guna setiap satuTeroka bila menggunakan one-hot, ordinal, dan pengekodan sasaran, kendalikan ciri kardinaliti tinggi, elakkan kebocoran sasaran dalam pengekodan sasaran, dan nilai kesan pengekodan kepada model churn linear dan berasaskan pokok.
Penkodan one-hot dan sparsityPenkodan ordinal untuk tahap berperingkatPenkodan sasaran dengan pemperhalusanMengendalikan ciri kardinaliti tinggiPilihan pengekodan mengikut jenis modelPelajaran 6Risiko kebocoran data: kebocoran temporal, menggunakan maklumat masa depan, pembahagian train-test betulKenal pasti dan cegah kebocoran data daripada susunan temporal, maklumat masa depan, dan ciri terbitan sasaran, rekabentuk pembahagian train-test betul, dan sahkan saluran untuk mengekalkan anggaran prestasi churn yang jujur.
Corak kebocoran biasa dalam churnSusunan temporal dan tarikh pemotonganPenciptaan ciri tanpa sasaranStrategi validasi silang selamatMengaudit saluran untuk kebocoranPelajaran 7Transformasi tarikh/masa: mengekstrak tenure, recency, kekerapan, ciri musimanKejuruteraan ciri tarikh dan masa seperti tenure, recency, kekerapan, dan musiman, kendalikan zon masa dan aktiviti tidak sekata, dan sediakan ciri temporal yang menangkap dinamik risiko churn dari masa ke masa.
Parsing dan membersihkan cap masaCiri tenure dan umur pelangganMetrik recency dan kekerapanKesan musiman dan kalendarTingkap masa dan agregasiPelajaran 8Mengendalikan ketidakseimbangan kelas untuk churn: undersampling, oversampling, SMOTE, berat kelasPelajari mendiagnosis ketidakseimbangan kelas churn, bandingkan undersampling, oversampling, SMOTE, dan berat kelas, dan nilai kesan kepada metrik, kestabilan model, dan tafsiran perniagaan dalam model churn pengeluaran.
Mengukur ketidakseimbangan kelas churnUnder- dan oversampling rawakSMOTE dan varian SMOTEMenggunakan berat kelas dalam modelMenilai strategi ketidakseimbanganPelajaran 9Kejuruteraan ciri tingkah laku: kekerapan sesi, perbelanjaan purata sesi, proksi churnReka ciri tingkah laku daripada sesi dan perbelanjaan, seperti kekerapan, intensiti, dan volatiliti, bina label proksi churn, dan terjemah log mentah kepada peramal stabil, boleh dibaca untuk model churn.
Kekerapan dan intensiti sesiMetrik perbelanjaan purata dan medianCiri volatiliti dan trendIsyarat penglibatan dan tidak aktifMembina label proksi churnPelajaran 10Pemilihan ciri dan pengurangan dimensi: pemeriksaan korelasi, maklumat bersama, asas PCAGunakan pemeriksaan korelasi, maklumat bersama, dan kepentingan berasaskan model untuk memilih ciri, kenalkan PCA untuk pengurangan dimensi, dan imbangkan kebolehbacaan dengan prestasi dalam ramalan churn.
Kaedah penapis univariatPemeriksaan korelasi dan redundanMaklumat bersama untuk churnKaedah pembalut dan tertanamAsas PCA dan tafsiran