سبق 1ਡਾਟਾ ਵੈਲੀਡੇਸ਼ਨ ਨਿਯਮ: ਡੁਪਲੀਕੇਟਸ, ਰੈਫਰੈਂਸ਼ਲ ਅਕਹਿਤਾ (ਗਾਹਕ/ਉਤਪਾਦ), ਰੇਂਜ ਤੋਂ ਬਾਹਰ ਵੈਲੂਜ਼, ਨਕਾਰਾਤਮਕ ਕੀਮਤਾਂ/ਮਾਤਰਾਵਿਕਰੀ CSV ਨੂੰ ਭਰੋਸੇਯੋਗ ਰੱਖਣ ਲਈ ਮਜ਼ਬੂਤ ਵੈਲੀਡੇਸ਼ਨ ਨਿਯਮ ਬਣਾਓ। ਤੁਸੀਂ ਡੁਪਲੀਕੇਟਸ ਨੂੰ ਪਛਾਣੋਗੇ, ਰੈਫਰੈਂਸ਼ਲ ਅਕਹਿਤਾ ਨੂੰ ਲਾਗੂ ਕਰੋਗੇ ਅਤੇ ਰੇਂਜ ਤੋਂ ਬਾਹਰ ਜਾਂ ਨਕਾਰਾਤਮਕ ਵੈਲੂਜ਼ ਨੂੰ ਚਿੰਨ੍ਹਿਤ ਕਰੋਗੇ ਜਿਨ੍ਹਾਂ ਕਾਰਨ ਡੈਸ਼ਬੋਰਡ ਅਤੇ ਡਾਊਨਸਟ੍ਰੀਮ ਮਾਡਲਾਂ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚੇ।
Detecting duplicate orders and order linesChecking referential integrity keysValidating numeric ranges and thresholdsHandling negative prices and quantitiesBuilding reusable validation checklistsسبق 2ਕਾਲਮ ਸੈਮੈਂਟਿਕਸ ਨੂੰ ਸਮਝਣਾ: order_id, order_date, customer_id, customer_region, product_id, product_category, product_subcategory, quantity, unit_price, discount, revenue, cost, channelਡੈਸ਼ਬੋਰਡ ਵਿੱਚ ਵਰਤੇ ਜਾਂਦੇ ਮੁੱਖ ਵਿਕਰੀ ਕਾਲਮਾਂ ਦੇ ਅਰਥ ਅਤੇ ਭੂਮਿਕਾ ਨੂੰ ਸਪੱਸ਼ਟ ਕਰੋ। ਤੁਸੀਂ ਪਛਾਣਕਾਰਕ, ਤਾਰੀਖਾਂ, ਉਤਪਾਦ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ, ਮਾਤਰਾ ਅਤੇ ਪੈਸੇ ਨਾਲ ਸਬੰਧਤ ਫੀਲਡਾਂ ਨੂੰ ਮੈਪ ਕਰੋਗੇ, ਯਕੀਨੀ ਬਣਾਉਂਦੇ ਹੋਏ ਕਿ ਮਾਡਲਾਂ ਅਤੇ ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨਾਂ ਵਿੱਚ ਇਕਸਾਰ ਅਰਥ ਹੋਣ।
Order-level identifiers and grain selectionCustomer and region identification fieldsProduct, category, and subcategory rolesQuantity, unit_price, discount, and revenueCost, channel, and margin-related fieldsسبق 3ਡਿਸਕਾਉਂਟ ਅਤੇ ਕੀਮਤ ਗਣਨਾਵਾਂ ਨਾਲ ਨਿਪਟਣਾ: unit_price, ਮਾਤਰਾ ਅਤੇ ਡਿਸਕਾਉਂਟ ਤੋਂ ਰੈਵਨਿਊ ਨੂੰ ਮੁੜ ਗਣਨਾ ਕਰਨਾ ਅਤੇ ਰਿਪੋਰਟ ਕੀਤੇ ਰੈਵਨਿਊ ਨਾਲ ਮੇਲ ਖਾਉਣਾਰੈਵਨਿਊ ਅਤੇ ਕੀਮਤ ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਮੁੜ ਗਣਨਾ ਅਤੇ ਵੈਲੀਡੇਟ ਕਰਨ ਦੇ ਤਰੀਕੇ ਨੂੰ ਸਮਝੋ। ਤੁਸੀਂ unit_price, ਮਾਤਰਾ ਅਤੇ ਡਿਸਕਾਉਂਟ ਤੋਂ ਲਾਈਨ ਰੈਵਨਿਊ ਗਣਨਾ ਕਰੋਗੇ, ਰਿਪੋਰਟ ਕੀਤੇ ਟੋਟਲ ਨਾਲ ਮੇਲ ਖਾਓਗੇ ਅਤੇ ਅਸੰਗਤੀਆਂ ਨੂੰ ਸਮੀਖਿਆ ਲਈ ਚਿੰਨ੍ਹਿਤ ਕਰੋਗੇ।
Revenue formulas from unit_price and quantityApplying percentage and absolute discountsReconciling computed and reported revenueDetecting inconsistent discount patternsDocumenting pricing and discount logicسبق 4ਸਮੇਂ ਅਧਾਰਤ ਰੂਪਾਂਤਰਣ: ਸਾਲ, ਕੁਆਰਟਰ, ਮਹੀਨਾ, ਹਫਤਾ, ਹਫਤੇ ਦਾ ਦਿਨ, ਰੋਲਿੰਗ ਵਿੰਡੋਜ਼ ਅਤੇ ਫਿਸਕਲ ਕੈਲੰਡਰਆਰਡਰ ਤਾਰੀਖਾਂ ਨੂੰ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਅਮੀਰ ਸਮੇਂ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚ ਬਦਲਣ ਦੇ ਤਰੀਕੇ ਨੂੰ ਸਮਝੋ। ਤੁਸੀਂ ਕੈਲੰਡਰ ਅਤੇ ਫਿਸਕਲ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਨਿਕਾਲੋਗੇ, ਰੋਲਿੰਗ ਵਿੰਡੋਜ਼ ਬਣਾਓਗੇ ਅਤੇ ਡੈਸ਼ਬੋਰਡ ਅਤੇ ਟਾਈਮ-ਸੀਰੀਜ਼ ਮਾਡਲਾਂ ਲਈ ਇਕਸਾਰ ਸਮੇਂ ਫੀਲਡ ਤਿਆਰ ਕਰੋਗੇ।
Extracting year, quarter, month, and weekDeriving weekday and weekend indicatorsBuilding rolling and moving window metricsImplementing fiscal calendars and offsetsAligning time grains for dashboardsسبق 5ਡਾਟਾ ਸਫ਼ਾਈ ਰੂਪਾਂਤਰਣ: ਟ੍ਰਿਮਿੰਗ, ਕੇਸ ਨਾਰਮਲਾਈਜ਼ੇਸ਼ਨ, ਖੇਤਰ ਅਤੇ ਚੈਨਲ ਲੇਬਲ ਨੂੰ ਸਟੈਂਡਰਡਾਈਜ਼ ਕਰਨਾਕੱਚੇ ਵਿਕਰੀ CSV ਨੂੰ ਇਕਸਾਰ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਤਿਆਰ ਬਣਾਉਣ ਲਈ ਵਿਹਾਰਕ ਸਫ਼ਾਈ ਕਦਮਾਂ ਦੀ ਖੋਜ ਕਰੋ। ਤੁਸੀਂ ਵ੍ਹਾਈਟਸਪੇਸ ਨੂੰ ਟ੍ਰਿਮ ਕਰੋਗੇ, ਕੇਸ ਨੂੰ ਨਾਰਮਲਾਈਜ਼ ਕਰੋਗੇ ਅਤੇ ਖੇਤਰ ਅਤੇ ਚੈਨਲ ਲੇਬਲ ਨੂੰ ਸਟੈਂਡਰਡਾਈਜ਼ ਕਰੋਗੇ ਤਾਂ ਜੋ ਡੁਪਲੀਕੇਟਸ ਅਤੇ ਖਰਾਬ ਡੈਸ਼ਬੋਰਡ ਫਿਲਟਰਾਂ ਤੋਂ ਬਚਿਆ ਜਾ ਸਕੇ।
Trimming whitespace and invisible charactersCase normalization for text dimensionsStandardizing region and channel taxonomiesMerging near-duplicate label variantsDocumenting cleaning rules for reuseسبق 6ਨਿਕਲੀਆਂ ਮੈਟ੍ਰਿਕਸ ਅਤੇ ਰੂਪਾਂਤਰਣ: ਲਾਭ = ਰੈਵਨਿਊ - ਲਾਗਤ, profit_margin = ਲਾਭ / ਰੈਵਨਿਊ, gross_margin, AOV = ਰੈਵਨਿਊ / ਆਰਡਰ_ਕਾਉਂਟ, unit_total = ਮਾਤਰਾ * unit_priceਕੱਚੇ CSV ਫੀਲਡਾਂ ਤੋਂ ਮੁੱਖ ਵਿਕਰੀ ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਨਿਕਾਲਣਾ ਸਿੱਖੋ। ਤੁਸੀਂ ਲਾਭ, ਮਾਰਜਿਨ, AOV ਅਤੇ ਯੂਨਿਟ ਟੋਟਲ ਗਣਨਾ ਕਰੋਗੇ, ਯਕੀਨੀ ਬਣਾਉਂਦੇ ਹੋਏ ਕਿ ਫਾਰਮੂਲੇ ਇਕਸਾਰ, ਚੰਗੀ ਤਰ੍ਹਾਂ ਦਸਤਾਵੇਜ਼ੀਕ੍ਰਿਤ ਅਤੇ ਵਪਾਰਕ ਪਰਿਭਾਸ਼ਾਵਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ।
Computing profit and gross marginCalculating profit_margin safelyDeriving AOV from revenue and ordersUnit totals from quantity and unit_priceAligning metrics with business definitionsسبق 7ਪੁਨਰ ਉਤਪਾਦਨੀ ETL ਲਈ ਤਕਨੀਕਾਂ: ਦਸਤਾਵੇਜ਼ੀਕ੍ਰਿਤ ਕਦਮ, ਸਕ੍ਰਿਪਟਸ, ਨੋਟਬੁੱਕ ਅਤੇ CSV ਇੰਪੋਰਟ ਅਕਹਿਤਾ ਲਈ ਚੈੱਕਸਮਵਿਕਰੀ CSV ਲਈ ਪੁਨਰ ਉਤਪਾਦਨੀ ETL ਪਾਈਪਲਾਈਨਾਂ ਨੂੰ ਡਿਜ਼ਾਈਨ ਕਰਨ ਦੇ ਤਰੀਕੇ ਸਿੱਖੋ। ਤੁਸੀਂ ਰੂਪਾਂਤਰਣਾਂ ਨੂੰ ਸਕ੍ਰਿਪਟ ਕਰੋਗੇ, ਵਰਜ਼ਨ ਟਰੈਕ ਕਰੋਗੇ, ਖੋਜ ਲਈ ਨੋਟਬੁੱਕ ਵਰਤੋਗੇ ਅਤੇ ਚੈੱਕਸਮ ਅਤੇ ਵੈਲੀਡੇਸ਼ਨ ਕਦਮ ਲਾਗੂ ਕਰੋਗੇ ਤਾਂ ਜੋ ਸਮੇਂ ਨਾਲ ਇੰਪੋਰਟ ਅਕਹਿਤਾ ਯਕੀਨੀ ਬਣੇ।
Scripting repeatable CSV transformationsUsing notebooks for exploratory ETLVersioning ETL code and configurationChecksums and file integrity validationAutomated ETL runs and loggingسبق 8ਗੁੰਮ ਵੈਲੂਜ਼ ਅਤੇ ਨਲ ਪੈਟਰਨ: ਪਛਾਣ ਵਿਧੀਆਂ, ਇੰਪਿਊਟੇਸ਼ਨ ਰਣਨੀਤੀਆਂ ਅਤੇ ਰੋਜ਼ਾਂ ਨੂੰ ਡ੍ਰੌਪ ਕਰਨ ਦਾ ਸਮਾਂਵਿਕਰੀ CSV ਵਿੱਚ ਗੁੰਮ ਜਾਂ ਨਲ ਵੈਲੂਜ਼ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਇਲਾਜ ਕਰਨ ਦੀਆਂ ਤਕਨੀਕਾਂ ਨੂੰ ਮਾਸਟਰ ਕਰੋ। ਤੁਸੀਂ ਨਲ ਪੈਟਰਨਾਂ ਨੂੰ ਪ੍ਰੋਫਾਈਲ ਕਰੋਗੇ, ਇੰਪਿਊਟੇਸ਼ਨ ਰਣਨੀਤੀਆਂ ਚੁਣੋਗੇ, ਰੋਜ਼ਾਂ ਨੂੰ ਡ੍ਰੌਪ ਕਰਨ ਦਾ ਫੈਸਲਾ ਕਰੋਗੇ ਅਤੇ ਡਾਊਨਸਟ੍ਰੀਮ ਮੈਟ੍ਰਿਕਸ ਨੂ ਨੁਕਸਾਨ ਤੋਂ ਬਚਾਉਣ ਲਈ ਧਾਰਨਾਵਾਂ ਨੂੰ ਦਸਤਾਵੇਜ਼ੀਕਰੋਗੇ।
Profiling missingness across key columnsVisualizing null patterns and correlationsImputation strategies for numeric fieldsImputation strategies for categorical fieldsRules for safely dropping rows or columnsسبق 9ਡਾਟਾ ਟਾਈਪਸ ਅਤੇ ਪਾਰਸਿੰਗ: ਤਾਰੀਖ ਫਾਰਮੈਟਸ, ਨੰਬਰੀ ਟਾਈਪਸ, ਕੈਟੇਗੋਰੀਕਲ ਐਨਕੋਡਿੰਗ, ਸਟ੍ਰਿੰਗ vs ਨੰਬਰੀ ਵੈਲੂਜ਼ ਨਾਲ ਨਿਪਟਣਾਵਿਕਰੀ CSV ਵਿੱਚ ਤਾਰੀਖਾਂ, ਨੰਬਰਾਂ ਅਤੇ ਕੈਟੇਗੋਰੀਆਂ ਨੂੰ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਪਾਰਸ ਕਰਨ ਦੇ ਤਰੀਕੇ ਸਿੱਖੋ। ਤੁਸੀਂ ਟੈਕਸਟ ਨੂੰ ਨੰਬਰੀ ਫੀਲਡਾਂ ਤੋਂ ਵੱਖ ਕਰੋਗੇ, ਲੋਕੇਲ-ਅਜਾਗਰ ਪਾਰਸਿੰਗ ਲਾਗੂ ਕਰੋਗੇ ਅਤੇ ਰਿਫ੍ਰੈਸ਼ਾਂ ਵਿੱਚ ਸਥਿਰ ਰਹਿਣ ਵਾਲੇ ਮਜ਼ਬੂਤ ਕੈਟੇਗੋਰੀਕਲ ਐਨਕੋਡਿੰਗ ਡਿਜ਼ਾਈਨ ਕਰੋਗੇ।
Detecting column data types in CSV importsParsing dates with multiple locale formatsHandling numeric separators and currency symbolsDesigning stable categorical encodingsConverting mixed-type columns safelyسبق 10ਬਹੁ-ਲਾਈਨ ਆਰਡਰਾਂ ਨਾਲ ਨਿਪਟਣਾ ਅਤੇ ਆਰਡਰ vs ਆਰਡਰ-ਲਾਈਨ ਲੈਵਲ ਤੇ ਏਗਰੀਗੇਸ਼ਨਵਿਕਰੀ CSV ਵਿੱਚ ਬਹੁ-ਲਾਈਨ ਆਰਡਰਾਂ ਨਾਲ ਨਿਪਟਣ ਦੇ ਤਰੀਕੇ ਸਿੱਖੋ। ਤੁਸੀਂ ਆਰਡਰ ਅਤੇ ਆਰਡਰ-ਲਾਈਨ ਗ੍ਰੇਨ ਨੂੰ ਵੱਖ ਕਰੋਗੇ, ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਏਗਰੀਗੇਟ ਕਰੋਗੇ ਅਤੇ ਡੈਸ਼ਬੋਰਡ ਵਿੱਚ ਰੈਵਨਿਊ, ਮਾਤਰਾ ਅਤੇ ਡਿਸਕਾਉਂਟ ਨੂੰ ਦੁੱਗਣਾ ਗਿਣਤੀ ਤੋਂ ਬਚਾਓਗੇ।
Identifying order vs order-line grainAggregating revenue at order levelSummarizing discounts across linesAvoiding double counting in rollupsChoosing grain for dashboard metrics