Leçon 1Échelle et transformation des caractéristiques : transformations log pour chiffre d'affaires/quantité asymétrique, échelle robusteAppliquez mise à l'échelle et transformations pour stabiliser la variance et réduire l'asymétrie dans chiffre d'affaires et quantité, en utilisant transformations log, échelle robuste et transformations de puissance tout en préservant l'interprétabilité si nécessaire.
Diagnostic asymétrie et queues lourdesTransformations log et puissanceÉchelles standard, min-max et robustePipelines d'échelle avec sklearnTransformations inverses pour interprétationLeçon 2Ingénierie caractéristiques temporelles : jour semaine, heure, saisonnalité, récence et ancienneté à partir de date_commande et historique clientIngénérez des caractéristiques temporelles à partir des dates de commande et historique client, incluant jour semaine, heure, saisonnalité, récence et ancienneté, en respectant l'ordre temporel pour éviter fuites dans tâches de prévision et classification.
Extraction caractéristiques basées calendrierEncodage cyclique variables temporellesIndicateurs saisonnalité et fêtesConception caractéristiques récence et anciennetéPrévention fuites temporellesLeçon 3Stratégies d'imputation pour champs numériques (médiane, KNN, basé modèle) et catégoriels (mode, 'inconnu')Comparez stratégies d'imputation numériques et catégorielles, incluant médiane, KNN, basé modèle, mode et catégories 'inconnu' explicites, avec diagnostics pour évaluer biais, variance et robustesse de l'ensemble complété.
Mécanismes et motifs de manquantsMéthodes imputation numériques simplesImputation KNN et basée modèleMode catégoriel et bacs 'inconnu'Utilisation indicateurs manquantsLeçon 4Création variable cible pour prédiction choisie (retour binaire, chiffre d'affaires continu, label livraison tardive)Définissez et construisez variables cibles pour prédictions commerciales clés, incluant flags retour binaires, chiffre d'affaires continu et labels livraison tardive, en assurant définitions claires et alignement avec métriques d'évaluation.
Choix objectif prédictionDéfinition labels retour et churnCibles régression chiffre d'affaires et margeLabels livraison tardive et violation SLAAlignement cibles avec métriquesLeçon 5Techniques d'encodage : one-hot, encodage cible, encodage fréquence, embeddings pour caractéristiques haute cardinalitéExplorez méthodes d'encodage pour variables catégorielles, de one-hot simple à encodage cible, fréquence et basé embeddings, avec guidance sur prévention fuites, régularisation et gestion haute cardinalité.
Quand utiliser encodage one-hotEncodage cible avec contrôle fuitesEncodages fréquence et comptageHashing et gestion catégories raresEmbeddings appris pour catégoriesLeçon 6Détection et gestion outliers pour prix, quantité, delivery_time_days et chiffre d'affairesApprenez à détecter, diagnostiquer et traiter outliers dans prix, quantité, temps livraison et chiffre d'affaires en utilisant règles statistiques et logique commerciale, minimisant perte information tout protégeant modèles aval de l'instabilité.
Règles détection outliers univariéesOutliers multivariés et contextuelsLimitation, élagage et winsorisationFlags outliers basés règles commercialesImpact outliers sur entraînement modèleLeçon 7Agrégations et caractéristiques niveau client : taux retour historique, valeur commande moyenne, fréquence, temps depuis dernière commandeConstruisez agrégations niveau client comme taux retour historique, valeur commande moyenne, fréquence achat et récence pour capturer comportement vie client et améliorer segmentation et performance prédictive.
Conception agrégation niveau clientTaux retour et plaintes historiquesValeur commande moyenne et taille panierFréquence achat et récenceProxies valeur vie clientLeçon 8Caractéristiques promotion et prix : effective_unit_price, discount_pct, flag discount_appliedCréez caractéristiques promotion et prix comme prix unitaire effectif, pourcentage remise, flags remise pour capturer intensité promotionnelle, impact marge et sensibilité client aux changements prix au fil du temps.
Calcul prix unitaire effectifPourcentage et profondeur remiseFlags promo binaires et multi-niveauxPromotions empilées et chevauchantesCaractéristiques proxy élasticité prixLeçon 9Stratégies division train/test pour données séries temporelles/commandes (split temporel, stratifié par cible, holdout client)Concevez stratégies division train et test pour données transactionnelles ordonnées temporellement, utilisant splits temporels, stratification par cible et schémas holdout client pour obtenir estimations performance réalistes et sans biais.
Pièges splits aléatoires dans données temporellesSplits basés temps et fenêtres glissantesSplits stratifiés pour cibles déséquilibréesHoldouts niveau client et magasinValidation croisée pour données temporellesLeçon 10Caractéristiques géographiques et logistiques : métriques niveau pays, zones expédition, distribution typique delivery_timeConcevez caractéristiques géographiques et logistiques utilisant métriques niveau pays, zones expédition et distributions temps livraison pour capturer contraintes opérationnelles, comportement régional et variabilité niveau service dans modèles prédictifs.
Agrégations niveau pays et régionDéfinition zones et lanes expéditionCaractéristiques distribution temps livraisonIndicateurs distance et transfrontalierCaractéristiques niveau service et SLALeçon 11Standardisation et nettoyage variables catégorielles : product_category, country, marketing_channel, device_typeStandardisez et nettoyez variables catégorielles comme catégorie produit, pays, canal marketing et type appareil en normalisant labels, fusionnant niveaux rares et imposant taxonomies cohérentes across datasets.
Détection labels catégories incohérentsNormalisation chaînes et mappageFusion catégories rares et bruitéesMaintien taxonomies catégoriesDocumentation nettoyage catégoriel