Aralin 1Mga tuntunin ng data validation: duplicates, referential integrity (customers/products), out-of-range values, negative prices/quantitiesI-define ang matibay na mga tuntunin ng validation upang panatilihin ang tiwala sa sales CSVs. Matutuklasan mo ang mga duplicates, ipapatupad ang referential integrity, at i-flag ang mga out-of-range o negative values bago sila makasira sa mga dashboard at downstream models.
Pagkakakilanlan ng duplicate orders at order linesPagsusuri ng referential integrity keysPag-validate ng numeric ranges at thresholdsPaghawak ng negative prices at quantitiesPaggawa ng reusable validation checklistsAralin 2Pag-unawa sa semantics ng column: order_id, order_date, customer_id, customer_region, product_id, product_category, product_subcategory, quantity, unit_price, discount, revenue, cost, channelLinawin ang kahulugan at papel ng mga core sales columns na ginagamit sa mga dashboard. I-map mo ang mga identifiers, dates, product attributes, quantities, at monetary fields upang matiyak ang consistent na semantics sa mga models at visualizations.
Order-level identifiers at grain selectionMga field ng customer at region identificationMga papel ng product, category, at subcategoryQuantity, unit_price, discount, at revenueCost, channel, at margin-related fieldsAralin 3Paghawak ng discounts at price calculations: recomputing ng revenue mula sa unit_price, quantity, at discount at pagreconcile sa reported revenueUnawain kung paano i-recompute at i-validate ang revenue at price metrics. Kalkulahin mo ang line revenue mula sa unit_price, quantity, at discount, i-reconcile sa reported totals, at i-flag ang mga inconsistencies para sa review.
Revenue formulas mula sa unit_price at quantityPaglalapat ng percentage at absolute discountsPagreconcile ng computed at reported revenuePagkakakilanlan ng inconsistent discount patternsPagdokumenta ng pricing at discount logicAralin 4Time-based transformations: pagkuha ng year, quarter, month, week, weekday, rolling windows, at fiscal calendarsUnawain kung paano i-transform ang order dates sa rich time features para sa analysis. I-derive mo ang calendar at fiscal attributes, bumuo ng rolling windows, at ihanda ang consistent na time fields para sa mga dashboard at time-series models.
Pagkuha ng year, quarter, month, at weekPag-derive ng weekday at weekend indicatorsPaggawa ng rolling at moving window metricsPag-implement ng fiscal calendars at offsetsPag-align ng time grains para sa dashboardsAralin 5Data cleaning transformations: trimming, case normalization, standardizing ng region at channel labelsGalugarin ang practical na mga hakbang sa cleaning upang gawing consistent at analysis-ready ang raw sales CSVs. I-trim mo ang whitespace, i-normalize ang case, at i-standardize ang region at channel labels upang maiwasan ang duplicates at broken dashboard filters.
Pag-trim ng whitespace at invisible charactersCase normalization para sa text dimensionsPag-standardize ng region at channel taxonomiesPag-merge ng near-duplicate label variantsPagdokumenta ng cleaning rules para sa reuseAralin 6Derived metrics at transformations: profit = revenue - cost, profit_margin = profit / revenue, gross_margin, AOV = revenue / order_count, unit_total = quantity * unit_priceMatututunan mong i-derive ang key sales metrics mula sa raw CSV fields. I-compute mo ang profit, margins, AOV, at unit totals, na tinitiyak na consistent, well-documented, at aligned sa business definitions ang mga formulas.
Pag-compute ng profit at gross marginPagkalkula ng profit_margin nang ligtasPag-derive ng AOV mula sa revenue at ordersUnit totals mula sa quantity at unit_pricePag-align ng metrics sa business definitionsAralin 7Techniques para sa reproducible ETL: documented steps, scripts, notebooks, at checksums para sa CSV import integrityMatututunan mo kung paano mag-design ng reproducible ETL pipelines para sa sales CSVs. I-script mo ang transformations, i-track ang versions, gumamit ng notebooks para sa exploration, at maglagay ng checksums at validation steps upang garantiyahin ang import integrity sa paglipas ng panahon.
Pag-script ng repeatable CSV transformationsPaggamit ng notebooks para sa exploratory ETLPag-version ng ETL code at configurationChecksums at file integrity validationAutomated ETL runs at loggingAralin 8Missing values at null patterns: detection methods, imputation strategies, at kailan i-drop ang rowsMaster ang techniques upang makita at gamutin ang missing o null values sa sales CSVs. I-profile mo ang null patterns, piliin ang imputation strategies, magdesisyon kung kailan i-drop ang rows, at i-dokumenta ang assumptions upang protektahan ang downstream metrics.
Pag-profile ng missingness sa key columnsPag-visualize ng null patterns at correlationsImputation strategies para sa numeric fieldsImputation strategies para sa categorical fieldsMga tuntunin para sa ligtas na pag-drop ng rows o columnsAralin 9Data types at parsing: date formats, numeric types, categorical encoding, paghawak ng string vs numeric valuesMatututunan mo kung paano tama ang pag-parse ng dates, numbers, at categories sa sales CSVs. I-distinguish mo ang text mula sa numeric fields, maglagay ng locale-aware parsing, at mag-design ng robust categorical encodings na nananatiling stable sa refreshes.
Pagkakakilanlan ng column data types sa CSV importsPag-parse ng dates na may multiple locale formatsPaghawak ng numeric separators at currency symbolsPag-design ng stable categorical encodingsPag-convert ng mixed-type columns nang ligtasAralin 10Paghawak ng multi-line orders at aggregation sa order vs order-line levelMatututunan mo kung paano hawakan ang orders na sumasaklaw sa maraming lines sa sales CSVs. I-distinguish mo ang order at order-line grain, i-aggregate nang tama, at maiwasan ang double counting ng revenue, quantity, at discounts sa mga dashboard.
Pagkakakilanlan ng order vs order-line grainPag-aggregate ng revenue sa order levelPag-summarize ng discounts sa linesPag-iwas sa double counting sa rollupsPagpili ng grain para sa dashboard metrics