Pelajaran 1Penskalan dan transformasi ciri: transformasi log untuk hasil/kuantiti condong, penskalan teguhGunakan penskalan dan transformasi untuk menstabilkan varians dan mengurangkan condong dalam hasil dan kuantiti, menggunakan transformasi log, penskalan teguh, dan transformasi kuasa sambil mengekalkan kebolehterjemahan jika diperlukan.
Mendiagnosis condong dan ekor beratTransformasi log dan kuasaPenskalan standard, min-max, dan teguhPaip penskalan dengan sklearnTransformasi songsang untuk tafsiranPelajaran 2Kejuruteraan ciri tarikh masa: hari dalam minggu, jam, musiman, ciri kebaruan dan tempoh dari tarikh pesanan dan sejarah pelangganKejuruteraan ciri berasaskan masa dari tarikh pesanan dan sejarah pelanggan, termasuk hari dalam minggu, jam, musiman, kebaruan, dan tempoh, sambil menghormati urutan temporal untuk mengelak kebocoran dalam tugas ramalan dan pengelasan.
Mengekstrak ciri berasaskan kalendarPenkodan kitaran pemboleh ubah masaPetunjuk musiman dan perayaanReka bentuk ciri kebaruan dan tempohPencegahan kebocoran berawasan masaPelajaran 3Strategi imputasi untuk medan berangka (median, KNN, berasaskan model) dan kategorikal (mod, 'tidak diketahui')Bandingkan strategi imputasi berangka dan kategorikal, termasuk median, KNN, berasaskan model, mod, dan kategori "tidak diketahui" eksplisit, dengan diagnostik untuk menilai berat sebelah, varians, dan kekukuhan set data yang lengkap.
Mekanisme dan corak ketiadaanKaedah imputasi berangka mudahImputasi KNN dan berasaskan modelMod kategorikal dan bekas "tidak diketahui"Menggunakan bendera petunjuk ketiadaanPelajaran 4Mencipta pemboleh ubah sasaran untuk ramalan yang dipilih (dipulangkan binari, hasil berterusan, label penghantaran lewat)Takrifkan dan bina pemboleh ubah sasaran untuk ramalan perniagaan utama, termasuk bendera pulangan binari, hasil berterusan, dan label penghantaran lewat, memastikan definisi jelas dan penjajaran dengan metrik penilaian.
Memilih objektif ramalanMentakrifkan label pulangan dan churnSasaran regresi hasil dan marginLabel pelanggaran penghantaran lewat dan SLAMenjajarkan sasaran dengan metrikPelajaran 5Teknik penkodan: one-hot, penkodan sasaran, penkodan kekerapan, embeddings untuk ciri kardinaliti tinggiTerokai kaedah penkodan untuk pemboleh ubah kategorikal, dari one-hot mudah kepada sasaran, kekerapan, dan penkodan berasaskan embedding, dengan panduan pencegahan kebocoran, pengaturceraian, dan pengendalian ciri kardinaliti tinggi.
Bila menggunakan penkodan one-hotPenkodan sasaran dengan kawalan kebocoranPenkodan kekerapan dan kiraanPengendalian hashing dan kategori jarangEmbeddings yang dipelajari untuk kategoriPelajaran 6Pengesanan dan pengendalian nilai luar untuk harga, kuantiti, masa_hantaran_hari, dan hasilBelajar mengesan, mendiagnosis, dan merawat nilai luar dalam harga, kuantiti, masa hantaran, dan hasil menggunakan peraturan statistik dan logik perniagaan, meminimumkan kehilangan maklumat sambil melindungi model hilir daripada ketidakstabilan.
Peraturan pengesanan nilai luar univariatNilai luar multivariat dan kontekstualPenutup, pemangkasan, dan winsorizationBendera nilai luar berasaskan peraturan perniagaanKesan nilai luar ke atas latihan modelPelajaran 7Agregasi dan ciri tahap pelanggan: kadar pulangan sejarah, nilai pesanan purata, kekerapan, masa sejak pesanan terakhirBina agregasi tahap pelanggan seperti kadar pulangan sejarah, nilai pesanan purata, kekerapan pembelian, dan kebaruan untuk menangkap tingkah laku seumur hidup pelanggan dan meningkatkan prestasi segmentasi dan ramalan.
Reka bentuk agregasi tahap pelangganKadar pulangan dan aduan sejarahNilai pesanan purata dan saiz bakulKekerapan pembelian dan kebaruanProksi nilai seumur hidup pelangganPelajaran 8Ciri promosi dan harga: harga_unit_efektif, pct_diskaun, bendera diskon_diterapkanCipta ciri promosi dan harga seperti harga unit efektif, peratusan diskaun, dan bendera diskaun untuk menangkap intensiti promosi, kesan margin, dan kepekaan pelanggan terhadap perubahan harga dari masa ke masa.
Mengira harga unit efektifPeratusan dan kedalaman diskaunBendera promosi binari dan berbilang tahapPromosi bertindih dan bertumpukCiri proksi keanjalan hargaPelajaran 9Strategi pembahagian latihan/uji untuk data siri masa/pesanan (pembahagian berasaskan masa, berstrata mengikut sasaran, holdout pelanggan)Reka strategi pembahagian latihan dan uji untuk data transaksi berurutan masa, menggunakan pembahagian berasaskan masa, stratifikasi mengikut sasaran, dan skim holdout pelanggan untuk mendapatkan anggaran prestasi realistik dan tidak berat sebelah.
Keburukan pembahagian rawak dalam data masaPembahagian berasaskan masa dan tingkap bergulirPembahagian berstrata untuk sasaran tidak seimbangHoldout tahap pelanggan dan kedaiPengesahan silang untuk data temporalPelajaran 10Ciri geografi dan logistik: metrik tahap negara, zon penghantaran, taburan masa_hantaran biasaReka ciri geografi dan logistik menggunakan metrik tahap negara, zon penghantaran, dan taburan masa hantaran untuk menangkap kekangan operasi, tingkah laku serantau, dan variabiliti tahap perkhidmatan dalam model ramalan.
Agregasi tahap negara dan serantauMentakrifkan zon dan laluan penghantaranCiri taburan masa hantaranPetunjuk jarak dan rentas sempadanCiri tahap perkhidmatan dan SLAPelajaran 11Standardisasi dan pembersihan pemboleh ubah kategorikal: kategori_produk, negara, saluran_pemasaran, jenis_perantiStandardisasi dan bersihkan pemboleh ubah kategorikal seperti kategori produk, negara, saluran pemasaran, dan jenis peranti dengan menormalkan label, menggabungkan tahap jarang, dan menguatkuasa taksonomi konsisten merentasi set data.
Mengesan label kategori tidak konsistenNormalisasi rentetan dan pemetaanMenggabungkan kategori jarang dan bisingMenjaga taksonomi kategoriMendokumentasikan pembersihan kategorikal