Les 1Feature scaling en transformatie: log-transformaties voor scheve omzet/hoeveelheid, robuuste scalingPas scaling en transformaties toe om variantie te stabiliseren en scheefheid te reduceren in omzet en hoeveelheid, met log-transformaties, robuuste scaling en power-transformaties terwijl interpretatie behouden blijft waar nodig.
Scheefheid en zware staarten diagnosticerenLog- en power-transformatiesStandaard, min-max en robuuste scalingScaling pipelines met sklearnInverse transformaties voor interpretatieLes 2Datetime feature engineering: weekday, uur, seasonaliteit, recency en tenure features van order_date en klantgeschiedenisEngineer tijd-gebaseerde features van orderdatums en klantgeschiedenis, inclusief weekday, uur, seasonaliteit, recency en tenure, terwijl temporele volgorde gerespecteerd wordt om leakage te voorkomen in forecasting en classificatietaken.
Kalender-gebaseerde features extraherenCyclische codering van tijdvariabelenSeasonaliteit en feestdag-indicatorenRecency en tenure feature-ontwerpTijd-bewuste leakage-preventieLes 3Imputatiestrategieën voor numerieke (mediaan, KNN, model-gebaseerd) en categorische velden (modus, 'onbekend')Vergelijk numerieke en categorische imputatiestrategieën, inclusief mediaan, KNN, model-gebaseerd, modus en expliciete 'onbekend' categorieën, met diagnostiek om bias, variantie en robuustheid van de voltooide dataset te beoordelen.
Missendheidsmechanismen en patronenEenvoudige numerieke imputatiemethodenKNN en model-gebaseerde imputatieCategorische modus en 'onbekend' binsMissendheidsindicator flags gebruikenLes 4Doelvariabele creëren voor gekozen voorspelling (binair geretourneerd, continue omzet, late levering label)Definieer en construeer doelvariabelen voor sleutel zakelijke voorspellingen, inclusief binaire retourflags, continue omzet en late levering labels, met duidelijke definities en afstemming op evaluatiemetrics.
Voorspeldoel kiezenRetour- en churn-labels definiërenOmzet- en marge-regressiedoelenLate levering en SLA-schending labelsDoelen afstemmen op metricsLes 5Encoding technieken: one-hot, target encoding, frequency encoding, embeddings voor high-cardinality featuresVerken encoding-methoden voor categorische variabelen, van eenvoudige one-hot tot target, frequency en embedding-gebaseerde encodings, met richtlijnen voor leakage-preventie, regularisatie en omgang met high-cardinality features.
Wanneer one-hot encoding gebruikenTarget encoding met leakage-controleFrequency en count encodingsHashing en zeldzame categorie-handlingGeleerde embeddings voor categorieënLes 6Outlier detectie en handling voor prijs, hoeveelheid, delivery_time_days en omzetLeer outliers detecteren, diagnosticeren en behandelen in prijs, hoeveelheid, levertijd en omzet met statistische regels en zakelijke logica, met minimale informatieverlies terwijl downstream-modellen beschermd worden tegen instabiliteit.
Univariate outlier-detectieregelsMultivariate en contextuele outliersCappen, trimmen en winsorisatieZakelijke-regel-gebaseerde outlier flagsImpact van outliers op modeltrainingLes 7Aggregaties en klant-niveau features: historische retourpercentage, avg order value, frequentie, tijd sinds laatste bestellingBouw klant-niveau aggregaties zoals historische retourpercentage, gemiddelde orderwaarde, aankoopfrequentie en recency om klantlevensgedrag vast te leggen en segmentatie en voorspellende prestaties te verbeteren.
Klant-niveau aggregatie-ontwerpHistorische retour- en klachtpercentagesGemiddelde orderwaarde en mandgrootteAankoopfrequentie en recencyKlantlevenswaarde proxiesLes 8Promotie en prijs features: effective_unit_price, discount_pct, discount_applied flagCreëer promotie- en prijsfeatures zoals effectieve eenheidsprijs, kortingspercentage en kortingsflags om promotie-intensiteit, marge-impact en klantgevoeligheid voor prijsveranderingen vast te leggen.
Effectieve eenheidsprijs berekenenKortingspercentage en diepteBinaire en multi-niveau promo flagsGestapelde en overlappende promotiesPrijselasticiteit proxy featuresLes 9Train/test split strategieën voor time-series/order data (tijd-gebaseerde split, gestratificeerd op doel, klant holdout)Ontwerp train- en test-split strategieën voor tijd-geordende transactie-data, met tijd-gebaseerde splits, stratificatie op doel en klant-holdout schema's voor realistische en onbevooroordeelde prestatie-schattingen.
Valstrikken van willekeurige splits in tijd-dataTijd-gebaseerde en rolling window splitsGestratificeerde splits voor onbalans doelenKlant- en winkel-niveau holdoutsCross-validation voor temporele dataLes 10Geografische en logistieke features: land-niveau metrics, verzendzones, typische delivery_time distributieOntwerp geografische en logistieke features met land-niveau metrics, verzendzones en levertijd-distributies om operationele beperkingen, regionaal gedrag en service-niveau variabiliteit vast te leggen in voorspellende modellen.
Land- en regio-niveau aggregatiesVerzendzones en lanes definiërenLevertijd-distributie featuresAfstand en grensoverschrijdende indicatorenService-niveau en SLA featuresLes 11Standaardiseren en reinigen categorische variabelen: product_category, land, marketing_channel, device_typeStandaardiseer en reinig categorische variabelen zoals productcategorie, land, marketingkanaal en devicetype door labels te normaliseren, zeldzame niveaus te mergen en consistente taxonomieën af te dwingen over datasets.
Inconsistente categorielabels detecterenString-normalisatie en mappingZeldzame en ruise categorieën mergenCategorietaxonomieën onderhoudenCategorische reiniging documenteren