Leson 1Règles de validation des données : doublons, intégrité référentielle (clients/produits), valeurs hors plage, prix/quantités négatifsDéfinissez des règles de validation robustes pour garder les CSV de ventes fiables. Vous détecterez les doublons, imposerez l'intégrité référentielle, et signalerez les valeurs hors plage ou négatives avant qu'elles ne corrompent les tableaux de bord et les modèles en aval.
Detecting duplicate orders and order linesChecking referential integrity keysValidating numeric ranges and thresholdsHandling negative prices and quantitiesBuilding reusable validation checklistsLeson 2Comprendre la sémantique des colonnes : order_id, order_date, customer_id, customer_region, product_id, product_category, product_subcategory, quantity, unit_price, discount, revenue, cost, channelClarifiez le sens et le rôle des colonnes de ventes principales utilisées dans les tableaux de bord. Vous cartographierez les identifiants, dates, attributs de produits, quantités, et champs monétaires, assurant une sémantique cohérente à travers les modèles et visualisations.
Order-level identifiers and grain selectionCustomer and region identification fieldsProduct, category, and subcategory rolesQuantity, unit_price, discount, and revenueCost, channel, and margin-related fieldsLeson 3Gestion des remises et calculs de prix : recalcul des revenus à partir de unit_price, quantity et discount et réconciliation avec les revenus rapportésComprenez comment recalculer et valider les métriques de revenus et de prix. Vous calculerez les revenus par ligne à partir de unit_price, quantity et discount, reconcilierez avec les totaux rapportés, et signalerez les incohérences pour examen.
Revenue formulas from unit_price and quantityApplying percentage and absolute discountsReconciling computed and reported revenueDetecting inconsistent discount patternsDocumenting pricing and discount logicLeson 4Transformations basées sur le temps : extraction d'année, trimestre, mois, semaine, jour de semaine, fenêtres glissantes et calendriers fiscauxComprenez comment transformer les dates de commande en fonctionnalités temporelles riches pour l'analyse. Vous dériverez des attributs calendaires et fiscaux, construirez des fenêtres glissantes, et préparerez des champs temporels cohérents pour les tableaux de bord et modèles de séries temporelles.
Extracting year, quarter, month, and weekDeriving weekday and weekend indicatorsBuilding rolling and moving window metricsImplementing fiscal calendars and offsetsAligning time grains for dashboardsLeson 5Transformations de nettoyage des données : suppression des espaces, normalisation de casse, standardisation des étiquettes région et canalExplorez des étapes de nettoyage pratiques pour rendre les CSV de ventes bruts cohérents et prêts pour l'analyse. Vous supprimerez les espaces inutiles, normaliserez la casse, et standardiserez les étiquettes de région et canal pour éviter les doublons et filtres de tableau de bord cassés.
Trimming whitespace and invisible charactersCase normalization for text dimensionsStandardizing region and channel taxonomiesMerging near-duplicate label variantsDocumenting cleaning rules for reuseLeson 6Métriques dérivées et transformations : profit = revenue - cost, profit_margin = profit / revenue, gross_margin, AOV = revenue / order_count, unit_total = quantity * unit_priceApprenez à dériver les métriques de ventes clés à partir des champs CSV bruts. Vous calculerez profit, marges, AOV et totaux unitaires, en assurant que les formules sont cohérentes, bien documentées et alignées sur les définitions métier.
Computing profit and gross marginCalculating profit_margin safelyDeriving AOV from revenue and ordersUnit totals from quantity and unit_priceAligning metrics with business definitionsLeson 7Techniques pour ETL reproductible : étapes documentées, scripts, notebooks et sommes de contrôle pour intégrité d'import CSVApprenez à concevoir des pipelines ETL reproductibles pour les CSV de ventes. Vous scriptrez les transformations, suivrez les versions, utiliserez des notebooks pour l'exploration, et appliquerez des sommes de contrôle et étapes de validation pour garantir l'intégrité d'import à long terme.
Scripting repeatable CSV transformationsUsing notebooks for exploratory ETLVersioning ETL code and configurationChecksums and file integrity validationAutomated ETL runs and loggingLeson 8Valeurs manquantes et patterns null : méthodes de détection, stratégies d'imputation et quand supprimer des lignesMaîtrisez les techniques pour détecter et traiter les valeurs manquantes ou nulles dans les CSV de ventes. Vous profilerez les patterns nulls, choisirez des stratégies d'imputation, déciderez quand supprimer des lignes, et documenterez les hypothèses pour protéger les métriques en aval.
Profiling missingness across key columnsVisualizing null patterns and correlationsImputation strategies for numeric fieldsImputation strategies for categorical fieldsRules for safely dropping rows or columnsLeson 9Types de données et parsing : formats de date, types numériques, encodage catégoriel, gestion chaîne vs valeurs numériquesApprenez à parser correctement les dates, nombres et catégories dans les CSV de ventes. Vous distinguerez texte de champs numériques, appliquerez un parsing conscient de la locale, et concevrez des encodages catégoriels robustes stables à travers les rafraîchissements.
Detecting column data types in CSV importsParsing dates with multiple locale formatsHandling numeric separators and currency symbolsDesigning stable categorical encodingsConverting mixed-type columns safelyLeson 10Gestion des commandes multi-lignes et agrégation au niveau commande vs ligne de commandeApprenez à gérer les commandes qui s'étendent sur plusieurs lignes dans les CSV de ventes. Vous distinguerez granularité commande et ligne de commande, agrégerez correctement, et éviterez le double comptage de revenue, quantity et discounts dans les tableaux de bord.
Identifying order vs order-line grainAggregating revenue at order levelSummarizing discounts across linesAvoiding double counting in rollupsChoosing grain for dashboard metrics