Lektion 1Funktionsskalning och transformation: log-transformer för sneda intäkter/mängd, robust skalningTillämpa skalning och transformationer för att stabilisera varians och minska snedhet i intäkt och mängd, med log-transformer, robust skalning och potens-transformer samtidigt som tolkbarhet bevaras där det behövs.
Diagnostisera snedhet och tunga svansarLog- och potenstransformationerStandard-, min-max- och robust skalningSkalningspipelines med sklearnInvers transformationer för tolkningLektion 2Datumsfunktionsteknik: veckodag, timme, säsongsmässighet, aktualitet och anställningstid från orderdatum och kundhistorikBygg tidsbaserade funktioner från orderdatum och kundhistorik, inklusive veckodag, timme, säsongsmässighet, aktualitet och anställningstid, med respekt för temporär ordning för att undvika läckage i prognos- och klassificeringsuppgifter.
Extrahera kalenderbaserade funktionerCyklisk kodning av tidsvariablerSäsongsmässighet och helgindikatorerDesign av aktualitets- och anställningstidsfunktionerTidsmedveten läckageförebyggandeLektion 3Imputationsstrategier för numeriska (median, KNN, modellbaserad) och kategoriska fält (läge, 'okänd')Jämför numeriska och kategoriska imputationsstrategier, inklusive median, KNN, modellbaserad, läge och explicita 'okänd'-kategorier, med diagnostik för att bedöma bias, varians och robusthet i det fullbordade datasetet.
Saknadsmekanismer och mönsterEnkla numeriska imputationsmetoderKNN- och modellbaserad imputationKategoriskt läge och 'okänd'-grupperAnvända saknadsindikatorflaggorLektion 4Skapa målvariabel för valt prediktionsmål (binär returnerad, kontinuerlig intäkt, sen leveransetikett)Definiera och bygg målvariabler för nyckel-affärsprediktioner, inklusive binära returflaggor, kontinuerlig intäkt och sena leveransetiketter, med tydliga definitioner och anpassning till utvärderingsmått.
Välja prediktionssyftetDefiniera retur- och churn-etiketterIntäkt- och marginalregressionsmålSena leveranser och SLA-brottsetiketterAnpassa mål till måttLektion 5Kodningstekniker: one-hot, måletkodning, frekvenskodning, inbäddningar för högkardinalitetsfunktionerUtforska kodningsmetoder för kategoriska variabler, från enkel one-hot till mål-, frekvens- och inbäddningsbaserad kodning, med vägledning om läckageförebyggande, regularisering och hantering av högkardinalitetsfunktioner.
När använda one-hot-kodningMålkodning med läckagekontrollFrekvens- och räknekodningarHashning och hantering av sällsynta kategorierLärda inbäddningar för kategorierLektion 6Avvikelseupptäckt och hantering för pris, mängd, leveranstid_dagar och intäktLär dig upptäcka, diagnostisera och behandla avvikelser i pris, mängd, leveranstid och intäkt med statistiska regler och affärslogik, minimera informationsförlust samtidigt som modellerna skyddas från instabilitet.
Univariata avvikelsereglerMultivariata och kontextuella avvikelserAvkapning, beskärning och winsoriseringAffärsregelbaserade avvikelseflaggorAvvikelsers inverkan på modellträningLektion 7Aggregeringar och kundnivåfunktioner: historisk returgrad, genomsnittligt order värde, frekvens, tid sedan senaste orderBygg kundnivåaggregeringar som historisk returgrad, genomsnittligt ordervärde, köpfrekvens och aktualitet för att fånga kundlivstidbeteende och förbättra segmentering och prediktiv prestanda.
Design av kundnivåaggregeringHistoriska retur- och klagomålsgraderGenomsnittligt ordervärde och korgstorlekKöpfrekvens och aktualitetProxyer för kundlivstidsvärdeLektion 8Kampanj- och prissättningsfunktioner: effektivt_enhetspris, rabatt_pct, rabatt_tillämpad flaggaSkapa kampanj- och prissättningsfunktioner som effektivt enhetspris, rabattprocent och rabattflaggor för att fånga kampanjintensitet, marginalpåverkan och kundkänslighet för prisändringar över tid.
Beräkna effektivt enhetsprisRabattprocent och djupBinära och flernivå kampanjflaggorStaplad och överlappande kampanjerProxyfunktioner för priselasticitetLektion 9Tränings-/testuppdelningsstrategier för tidsserie/orderdata (tidsbaserad uppdelning, stratifierad efter mål, kundhållut)Designa tränings- och testuppdelningsstrategier för tidsordnad transaktionsdata, med tidsbaserade uppdelningar, stratifiering efter mål och kundhållutsscheman för realistiska och opartiska prestandauppskattningar.
Fällor med slumpmässiga uppdelningar i tidsdataTidsbaserade och rullande fönsteruppdelningarStratifierade uppdelningar för obalanserade målKund- och butiksnivå hållutKorsvalidering för temporär dataLektion 10Geografiska och logistikfunktioner: landsnivåmått, fraktzoner, typisk leveranstidsfördelningDesigna geografiska och logistikfunktioner med landsnivåmått, fraktzoner och leveranstidsfördelningar för att fånga operativa begränsningar, regionalt beteende och servicenivåvariabilitet i prediktiva modeller.
Lands- och regionsnivåaggregeringarDefiniera fraktzoner och rutterLeveranstidsfördelningsfunktionerDistans- och gränsöverskridande indikatorerServicenivå- och SLA-funktionerLektion 11Standardisera och rensa kategoriska variabler: produktkategori, land, marknadsföringskanal, devistyptStandardisera och rensa kategoriska variabler som produktkategori, land, marknadsföringskanal och devistypt genom att normalisera etiketter, slå ihop sällsynta nivåer och tvinga konsekventa taxonomier över dataset.
Upptäcka inkonsekventa kategori-etiketterSträngnormalisering och mappningSlå ihop sällsynta och brusiga kategorierUpprätthålla kategoritaxonomierDokumentera kategorirensning