Pelajaran 1Skala fitur dan transformasi: transformasi log untuk pendapatan/kuantitas miring, skala kuatTerapkan penskalaan dan transformasi untuk menstabilkan varians dan mengurangi kemiringan pada pendapatan dan kuantitas, menggunakan transformasi log, skala kuat, dan transformasi kuasa sambil mempertahankan interpretabilitas jika diperlukan.
Mendiagnosis kemiringan dan ekor beratTransformasi log dan kuasaSkala standar, min-max, dan kuatPipeline skala dengan sklearnTransformasi invers untuk interpretasiPelajaran 2Rekayasa fitur datetime: hari kerja, jam, musiman, fitur recency dan masa jabatan dari order_date dan riwayat pelangganRekayasa fitur berbasis waktu dari tanggal pesanan dan riwayat pelanggan, termasuk hari kerja, jam, musiman, recency, dan masa jabatan, sambil menghormati urutan temporal untuk menghindari kebocoran dalam tugas peramalan dan klasifikasi.
Mengekstrak fitur berbasis kalenderPengkodean siklik variabel waktuIndikator musiman dan liburanDesain fitur recency dan masa jabatanPencegahan kebocoran sadar waktuPelajaran 3Strategi imputasi untuk field numerik (median, KNN, berbasis model) dan kategorikal (mode, 'unknown')Bandingkan strategi imputasi numerik dan kategorikal, termasuk median, KNN, berbasis model, mode, dan kategori 'unknown' eksplisit, dengan diagnostik untuk menilai bias, varians, dan ketahanan dataset yang dilengkapi.
Mekanisme dan pola kekuranganMetode imputasi numerik sederhanaImputasi KNN dan berbasis modelMode kategorikal dan bin 'unknown'Menggunakan flag indikator kekuranganPelajaran 4Membuat variabel target untuk prediksi yang dipilih (dikembalikan biner, pendapatan kontinu, label pengiriman terlambat)Definisikan dan bangun variabel target untuk prediksi bisnis kunci, termasuk flag pengembalian biner, pendapatan kontinu, dan label pengiriman terlambat, memastikan definisi jelas dan keselarasan dengan metrik evaluasi.
Memilih tujuan prediksiMendefinisikan label pengembalian dan churnTarget regresi pendapatan dan marginLabel pelanggaran pengiriman terlambat dan SLAMenyesuaikan target dengan metrikPelajaran 5Teknik pengkodean: one-hot, target encoding, frequency encoding, embeddings untuk fitur kardinalitas tinggiJelajahi metode pengkodean untuk variabel kategorikal, dari one-hot sederhana hingga target, frequency, dan pengkodean berbasis embedding, dengan panduan pencegahan kebocoran, regulerasi, dan penanganan fitur kardinalitas tinggi.
Kapan menggunakan pengkodean one-hotPengkodean target dengan kontrol kebocoranPengkodean frequency dan hitunganHashing dan penanganan kategori langkaEmbedding yang dipelajari untuk kategoriPelajaran 6Deteksi dan penanganan outlier untuk harga, kuantitas, delivery_time_days, dan pendapatanPelajari cara mendeteksi, mendiagnosis, dan menangani outlier pada harga, kuantitas, waktu pengiriman, dan pendapatan menggunakan aturan statistik dan logika bisnis, meminimalkan kehilangan informasi sambil melindungi model hilir dari ketidakstabilan.
Aturan deteksi outlier univariatOutlier multivariat dan kontekstualPembatasan, pemangkasan, dan winsorizationFlag outlier berbasis aturan bisnisDampak outlier pada pelatihan modelPelajaran 7Agregasi dan fitur tingkat pelanggan: tingkat pengembalian historis, nilai pesanan rata-rata, frekuensi, waktu sejak pesanan terakhirBangun agregasi tingkat pelanggan seperti tingkat pengembalian historis, nilai pesanan rata-rata, frekuensi pembelian, dan recency untuk menangkap perilaku seumur hidup pelanggan dan meningkatkan segmentasi serta kinerja prediktif.
Desain agregasi tingkat pelangganTingkat pengembalian dan keluhan historisNilai pesanan rata-rata dan ukuran keranjangFrekuensi pembelian dan recencyProksi nilai seumur hidup pelangganPelajaran 8Fitur promosi dan harga: effective_unit_price, discount_pct, flag diskon diterapkanBuat fitur promosi dan harga seperti harga satuan efektif, persentase diskon, dan flag diskon untuk menangkap intensitas promosi, dampak margin, dan sensitivitas pelanggan terhadap perubahan harga seiring waktu.
Menghitung harga satuan efektifPersentase dan kedalaman diskonFlag promo biner dan multi-levelPromosi bertumpuk dan tumpang tindihFitur proksi elastisitas hargaPelajaran 9Strategi pemisahan train/test untuk data time-series/pesanan (pemisahan berbasis waktu, terstratifikasi berdasarkan target, holdout pelanggan)Rancang strategi pemisahan train dan test untuk data transaksional berurutan waktu, menggunakan pemisahan berbasis waktu, stratifikasi berdasarkan target, dan skema holdout pelanggan untuk mendapatkan estimasi kinerja yang realistis dan tidak bias.
Kelemahan pemisahan acak pada data waktuPemisahan berbasis waktu dan jendela bergulirPemisahan terstratifikasi untuk target tidak seimbangHoldout tingkat pelanggan dan tokoValidasi silang untuk data temporalPelajaran 10Fitur geografis dan logistik: metrik tingkat negara, zona pengiriman, distribusi delivery_time tipikalRancang fitur geografis dan logistik menggunakan metrik tingkat negara, zona pengiriman, dan distribusi waktu pengiriman untuk menangkap kendala operasional, perilaku regional, dan variabilitas tingkat layanan dalam model prediktif.
Agregasi tingkat negara dan wilayahMendefinisikan zona dan jalur pengirimanFitur distribusi waktu pengirimanIndikator jarak dan lintas batasFitur tingkat layanan dan SLAPelajaran 11Standarisasi dan pembersihan variabel kategorikal: product_category, country, marketing_channel, device_typeStandarisasi dan bersihkan variabel kategorikal seperti kategori produk, negara, saluran pemasaran, dan tipe perangkat dengan menormalkan label, menggabungkan level langka, dan menerapkan taksonomi konsisten di seluruh dataset.
Mendeteksi label kategori tidak konsistenNormalisasi string dan pemetaanMenggabungkan kategori langka dan berisikMempertahankan taksonomi kategoriMendokumentasikan pembersihan kategorikal