Leçon 1Échelle et transformation des caractéristiques : transformations log pour revenus/quantité asymétriques, échelle robusteAppliquez mise à l'échelle et transformations pour stabiliser la variance et réduire l'asymétrie dans revenus et quantité, en utilisant transformations log, échelle robuste et transformations de puissance tout en préservant l'interprétabilité si nécessaire.
Diagnostic d'asymétrie et queues lourdesTransformations log et de puissanceÉchelles standard, min-max et robustePipelines d'échelle avec sklearnTransformations inverses pour interprétationLeçon 2Ingénierie de caractéristiques temporelles : jour de semaine, heure, saisonnalité, caractéristiques de récence et ancienneté à partir de order_date et historique clientConcevez des caractéristiques temporelles à partir des dates de commande et historique client, incluant jour de semaine, heure, saisonnalité, récence et ancienneté, tout en respectant l'ordre temporel pour éviter les fuites dans tâches de prévision et classification.
Extraction de caractéristiques basées sur calendrierEncodage cyclique de variables temporellesIndicateurs de saisonnalité et vacancesConception de caractéristiques de récence et anciennetéPrévention de fuites temporellesLeçon 3Stratégies d'imputation pour champs numériques (médiane, KNN, basée sur modèle) et catégoriels (mode, 'inconnu')Comparez les stratégies d'imputation numériques et catégorielles, incluant médiane, KNN, basée sur modèle, mode et catégories 'inconnu' explicites, avec diagnostics pour évaluer biais, variance et robustesse de l'ensemble complété.
Mécanismes et motifs de manquantsMéthodes simples d'imputation numériqueImputation KNN et basée sur modèleMode catégoriel et bacs 'inconnu'Utilisation d'indicateurs de manquantsLeçon 4Création de variable cible pour prédiction choisie (retour binaire, revenus continus, étiquette livraison tardive)Définissez et construisez des variables cibles pour prédictions d'affaires clés, incluant drapeaux de retour binaires, revenus continus et étiquettes de livraison tardive, en veillant à des définitions claires et alignement avec métriques d'évaluation.
Choix de l'objectif de prédictionDéfinition d'étiquettes de retour et churnCibles de régression revenus et margeÉtiquettes de livraison tardive et violation SLAAlignement des cibles avec métriquesLeçon 5Techniques d'encodage : one-hot, encodage cible, encodage fréquence, embeddings pour caractéristiques haute cardinalitéExplorez les méthodes d'encodage pour variables catégorielles, de one-hot simple à encodage cible, fréquence et basé sur embeddings, avec conseils sur prévention de fuites, régularisation et gestion de caractéristiques haute cardinalité.
Quand utiliser encodage one-hotEncodage cible avec contrôle de fuitesEncodages fréquence et comptageHashing et gestion catégories raresEmbeddings appris pour catégoriesLeçon 6Détection et gestion d'outliers pour prix, quantité, delivery_time_days et revenusApprenez à détecter, diagnostiquer et traiter les outliers dans prix, quantité, temps de livraison et revenus en utilisant règles statistiques et logique d'affaires, en minimisant la perte d'information tout en protégeant les modèles aval de l'instabilité.
Règles de détection d'outliers univariésOutliers multivariés et contextuelsLimitation, élagage et winsorisationDrapeaux d'outliers basés sur règles d'affairesImpact des outliers sur entraînement de modèlesLeçon 7Agrégations et caractéristiques au niveau client : taux de retour historique, valeur moyenne commande, fréquence, temps depuis dernière commandeConstruisez des agrégations au niveau client telles que taux de retour historique, valeur moyenne commande, fréquence d'achat et récence pour capturer le comportement vie client et améliorer la segmentation et performance prédictive.
Conception d'agrégation niveau clientTaux de retour et plaintes historiquesValeur moyenne commande et taille panierFréquence d'achat et récenceProxies de valeur vie clientLeçon 8Caractéristiques promotion et tarification : effective_unit_price, discount_pct, drapeau discount_appliedCréez des caractéristiques promotion et tarification telles que prix unitaire effectif, pourcentage de rabais et drapeaux de rabais pour capturer l'intensité promotionnelle, impact marge et sensibilité client aux changements de prix au fil du temps.
Calcul de prix unitaire effectifPourcentage et profondeur de rabaisDrapeaux promo binaires et multi-niveauxPromotions empilées et chevauchantesCaractéristiques proxy élasticité prixLeçon 9Stratégies de division train/test pour données séries temporelles/commandes (division temporelle, stratifiée par cible, holdout client)Concevez des stratégies de division train et test pour données transactionnelles ordonnées temporellement, en utilisant divisions temporelles, stratification par cible et schémas holdout client pour obtenir des estimations de performance réalistes et sans biais.
Pièges des divisions aléatoires dans données temporellesDivisions temporelles et fenêtres glissantesDivisions stratifiées pour cibles déséquilibréesHoldouts niveau client et magasinValidation croisée pour données temporellesLeçon 10Caractéristiques géographiques et logistiques : métriques niveau pays, zones d'expédition, distribution typique delivery_timeConcevez des caractéristiques géographiques et logistiques en utilisant métriques niveau pays, zones d'expédition et distributions de temps de livraison pour capturer contraintes opérationnelles, comportement régional et variabilité niveau service dans modèles prédictifs.
Agrégations niveau pays et régionDéfinition de zones et lanes d'expéditionCaractéristiques de distribution temps livraisonIndicateurs distance et transfrontalierCaractéristiques niveau service et SLALeçon 11Standardisation et nettoyage des variables catégorielles : product_category, country, marketing_channel, device_typeStandardisez et nettoyez les variables catégorielles telles que catégorie produit, pays, canal marketing et type appareil en normalisant les étiquettes, fusionnant les niveaux rares et imposant des taxonomies cohérentes à travers les ensembles de données.
Détection d'étiquettes de catégories incohérentesNormalisation de chaînes et mappageFusion de catégories rares et bruyantesMaintien des taxonomies de catégoriesDocumentation du nettoyage catégoriel