Leçon 1Échelle et transformation des caractéristiques : transformations log pour chiffre d'affaires/quantité asymétriques, échelle robusteAppliquez l'échelle et les transformations pour stabiliser la variance et réduire l'asymétrie dans le chiffre d'affaires et la quantité, en utilisant des transformations log, une échelle robuste et des transformations de puissance tout en préservant l'interprétabilité si nécessaire.
Diagnostic de l'asymétrie et des queues lourdesTransformations log et de puissanceÉchelles standard, min-max et robustesPipelines d'échelle avec sklearnTransformations inverses pour l'interprétationLeçon 2Ingénierie des caractéristiques temporelles : jour de la semaine, heure, saisonnalité, caractéristiques de récence et ancienneté à partir de order_date et historique clientCréez des caractéristiques temporelles à partir des dates de commande et de l'historique client, incluant jour de la semaine, heure, saisonnalité, récence et ancienneté, tout en respectant l'ordre temporel pour éviter les fuites dans les tâches de prévision et de classification.
Extraction de caractéristiques basées sur le calendrierEncodage cyclique des variables temporellesIndicateurs de saisonnalité et de vacancesConception de caractéristiques de récence et anciennetéPrévention des fuites temporellesLeçon 3Stratégies d'imputation pour champs numériques (médiane, KNN, basée sur modèle) et catégoriels (mode, 'inconnu')Comparez les stratégies d'imputation numériques et catégorielles, incluant médiane, KNN, basée sur modèle, mode et catégories 'inconnu' explicites, avec des diagnostics pour évaluer le biais, la variance et la robustesse de l'ensemble de données complété.
Mécanismes et motifs de valeurs manquantesMéthodes simples d'imputation numériqueImputation KNN et basée sur modèleMode catégoriel et bacs 'inconnu'Utilisation d'indicateurs de valeurs manquantesLeçon 4Création de la variable cible pour la prédiction choisie (retour binaire, chiffre d'affaires continu, label livraison tardive)Définissez et construisez des variables cibles pour les prédictions métier clés, incluant les drapeaux de retour binaires, le chiffre d'affaires continu et les labels de livraison tardive, en veillant à des définitions claires et un alignement avec les métriques d'évaluation.
Choix de l'objectif de prédictionDéfinition des labels de retour et churnCibles de régression du chiffre d'affaires et margeLabels de livraison tardive et violation SLAAlignement des cibles avec les métriquesLeçon 5Techniques d'encodage : one-hot, encodage cible, encodage fréquentiel, embeddings pour caractéristiques à haute cardinalitéExplorez les méthodes d'encodage pour les variables catégorielles, de l'one-hot simple à l'encodage cible, fréquentiel et basé sur embeddings, avec des conseils sur la prévention des fuites, la régularisation et la gestion des caractéristiques à haute cardinalité.
Quand utiliser l'encodage one-hotEncodage cible avec contrôle des fuitesEncodages fréquentiel et de comptageHashing et gestion des catégories raresEmbeddings appris pour les catégoriesLeçon 6Détection et gestion des valeurs aberrantes pour prix, quantité, delivery_time_days et chiffre d'affairesApprenez à détecter, diagnostiquer et traiter les valeurs aberrantes dans le prix, la quantité, le temps de livraison et le chiffre d'affaires en utilisant des règles statistiques et la logique métier, en minimisant la perte d'information tout en protégeant les modèles en aval de l'instabilité.
Règles de détection univariée des aberrantesValeurs aberrantes multivariées et contextuellesLimitation, élagage et winsorisationDrapeaux d'aberrantes basés sur règles métierImpact des aberrantes sur l'entraînement du modèleLeçon 7Agrégations et caractéristiques au niveau client : taux historique de retour, valeur moyenne de commande, fréquence, temps depuis dernière commandeConstruisez des agrégations au niveau client telles que le taux historique de retour, la valeur moyenne de commande, la fréquence d'achat et la récence pour capturer le comportement vie client et améliorer la segmentation et les performances prédictives.
Conception d'agrégations au niveau clientTaux historiques de retour et de plaintesValeur moyenne de commande et taille panierFréquence d'achat et récenceProxies de valeur vie clientLeçon 8Caractéristiques promotion et prix : effective_unit_price, discount_pct, drapeau discount_appliedCréez des caractéristiques promotion et prix telles que le prix unitaire effectif, le pourcentage de remise et les drapeaux de remise pour capturer l'intensité promotionnelle, l'impact sur la marge et la sensibilité client aux changements de prix au fil du temps.
Calcul du prix unitaire effectifPourcentage et profondeur de remiseDrapeaux promo binaires et multi-niveauxPromotions empilées et chevauchantesCaractéristiques proxy d'élasticité-prixLeçon 9Stratégies de division train/test pour données temporelles/commandes (division temporelle, stratifiée par cible, holdout client)Concevez des stratégies de division train et test pour les données transactionnelles ordonnées temporellement, en utilisant des divisions temporelles, une stratification par cible et des schémas de holdout client pour obtenir des estimations de performance réalistes et sans biais.
Pièges des divisions aléatoires dans les données temporellesDivisions temporelles et fenêtres glissantesDivisions stratifiées pour cibles déséquilibréesHoldouts au niveau client et magasinValidation croisée pour données temporellesLeçon 10Caractéristiques géographiques et logistiques : métriques au niveau pays, zones d'expédition, distribution typique de delivery_timeConcevez des caractéristiques géographiques et logistiques en utilisant des métriques au niveau pays, des zones d'expédition et des distributions de temps de livraison pour capturer les contraintes opérationnelles, le comportement régional et la variabilité des niveaux de service dans les modèles prédictifs.
Agrégations au niveau pays et régionDéfinition des zones et lanes d'expéditionCaractéristiques de distribution du temps de livraisonIndicateurs de distance et transfrontalierCaractéristiques de niveau de service et SLALeçon 11Standardisation et nettoyage des variables catégorielles : product_category, country, marketing_channel, device_typeStandardisez et nettoyez les variables catégorielles telles que la catégorie produit, le pays, le canal marketing et le type d'appareil en normalisant les labels, fusionnant les niveaux rares et imposant des taxonomies cohérentes à travers les ensembles de données.
Détection des labels de catégories incohérentsNormalisation des chaînes et cartographieFusion des catégories rares et bruitéesMaintien des taxonomies de catégoriesDocumentation du nettoyage catégoriel