Lezione 1Scaling e trasformazione feature: log transform per revenue/quantità skew, scaling robustoApplica scaling e trasformazioni per stabilizzare varianza e ridurre skewness in revenue e quantità, usando log transform, scaling robusto e power transform preservando interpretabilità dove necessario.
Diagnosi skewness e code pesantiTrasformazioni log e powerScaling standard, min-max e robustoPipeline scaling con sklearnTrasformazioni inverse per interpretazioneLezione 2Ingegneria feature datetime: giorno settimana, ora, stagionalità, feature recency e tenure da order_date e storia clienteIngegnerizza feature basate su tempo da date ordini e storia cliente, inclusi giorno settimana, ora, stagionalità, recency e tenure, rispettando ordine temporale per evitare leakage in task forecasting e classificazione.
Estrazione feature basate su calendarioCodifica ciclica variabili tempoIndicatori stagionalità e festivitàProgettazione feature recency e tenurePrevenzione leakage time-awareLezione 3Strategie imputazione per campi numerici (mediana, KNN, model-based) e categorici (moda, 'unknown')Confronta strategie imputazione numeriche e categoriche, inclusa mediana, KNN, model-based, moda e categorie 'unknown' esplicite, con diagnostiche per valutare bias, varianza e robustezza del dataset completato.
Meccanismi e pattern missingnessMetodi imputazione numerica sempliciImputazione KNN e model-basedModa categorica e bin 'unknown'Uso flag indicatori missingnessLezione 4Creazione variabile target per predizione scelta (reso binario, revenue continua, label consegna tardiva)Definisci e costruisci variabili target per predizioni aziendali chiave, inclusi flag resi binari, revenue continua e label consegne tardive, assicurando definizioni chiare e allineamento con metriche valutazione.
Scelta obiettivo predizioneDefinizione label resi e churnTarget regressione revenue e margineLabel consegne tardive e breach SLAAllineamento target con metricheLezione 5Tecniche encoding: one-hot, target encoding, frequency encoding, embeddings per feature high-cardinalityEsplora metodi encoding per variabili categoriche, da one-hot semplice a target, frequency ed embedding-based, con guida su prevenzione leakage, regolarizzazione e gestione feature high-cardinality.
Quando usare one-hot encodingTarget encoding con controllo leakageEncoding frequency e countHashing e gestione categorie rareEmbeddings appresi per categorieLezione 6Rilevamento e gestione outlier per price, quantity, delivery_time_days e revenueImpara a rilevare, diagnosticare e trattare outlier in price, quantity, delivery time e revenue usando regole statistiche e logica aziendale, minimizzando perdita informazione proteggendo modelli downstream da instabilità.
Regole rilevamento outlier univariatiOutlier multivariati e contestualiCapping, trimming e winsorizationFlag outlier basati su regole aziendaliImpatto outlier su training modelloLezione 7Aggregazioni e feature a livello cliente: tasso reso storico, avg order value, frequenza, tempo dall'ultimo ordineCostruisci aggregazioni a livello cliente come tasso reso storico, valore medio ordine, frequenza acquisto e recency per catturare comportamento lifetime cliente e migliorare segmentazione e performance predittiva.
Progettazione aggregazione livello clienteTassi resi e reclami storiciValore medio ordine e basket sizeFrequenza acquisto e recencyProxy valore lifetime clienteLezione 8Feature promozioni e pricing: effective_unit_price, discount_pct, flag discount_appliedCrea feature promozioni e pricing come prezzo unitario effettivo, percentuale sconto e flag sconto per catturare intensità promozionale, impatto margine e sensibilità cliente a cambiamenti prezzo nel tempo.
Calcolo prezzo unitario effettivoPercentuale e profondità scontoFlag promo binari e multi-livelloPromozioni stacked e sovrapposteProxy feature elasticità prezzoLezione 9Strategie split train/test per dati time-series/ordine (split time-based, stratificato per target, holdout cliente)Progetta strategie split train e test per dati transazionali ordinati nel tempo, usando split time-based, stratificazione per target e schemi holdout cliente per ottenere stime performance realistiche e unbiased.
Errori split random in dati tempoSplit time-based e rolling windowSplit stratificati per target sbilanciatiHoldout livello cliente e storeCross-validation per dati temporaliLezione 10Feature geografiche e logistiche: metriche livello paese, zone spedizione, distribuzione tipica delivery_timeProgetta feature geografiche e logistiche usando metriche livello paese, zone spedizione e distribuzioni delivery time per catturare vincoli operativi, comportamento regionale e variabilità service-level in modelli predittivi.
Aggregazioni livello paese e regioneDefinizione zone e lanes spedizioneFeature distribuzione delivery timeIndicatori distanza e cross-borderFeature service level e SLALezione 11Standardizzazione e pulizia variabili categoriche: product_category, country, marketing_channel, device_typeStandardizza e pulisci variabili categoriche come categoria prodotto, paese, canale marketing e tipo device normalizzando label, mergiando livelli rari e imponendo tassonomie consistenti tra dataset.
Rilevamento label categorie incoerentiNormalizzazione stringhe e mappaturaMerge categorie rare e rumoroseMantenimento tassonomie categorieDocumentazione pulizia categorica