سبق 1ਡੇਟਾਸੈੱਟ ਡਾਈਮੈਂਸ਼ਨ ਅਤੇ ਸਕੀਮਾ ਦਾ ਪਤਾ ਲਗਾਉਣਾ ਅਤੇ ਰਿਪੋਰਟ ਕਰਨਾ: ਰੋਅ, ਕਾਲਮ, ਡੇਟਾ ਟਾਈਪਸ ਅਤੇ ਯੂਨੀਕ ਆਈਡੀ ਚੈੱਕਇਹ ਭਾਗ ਡੇਟਾ ਸੈੱਟ ਸਟ੍ਰਕਚਰ ਦੀ ਜਾਂਚ ਉੱਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਰੋਅ ਅਤੇ ਕਾਲਮ ਗਿਣਤੀ, ਡੇਟਾ ਟਾਈਪਸ, ਪ੍ਰਾਈਮਰੀ ਕੀ ਯੂਨੀਕਨੈੱਸ, ਅਤੇ ਸਕੀਮਾ ਡ੍ਰਿਫਟ ਡਿਟੈਕਸ਼ਨ ਸ਼ਾਮਲ ਹੈ, ਟ੍ਰਾਂਜੈਕਸ਼ਨ ਟੇਬਲਾਂ ਨੂੰ ਇਕਸਾਰ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣਕ ਤੌਰ ਉੱਤੇ ਭਰੋਸੇਯੋਗ ਬਣਾਉਣ ਲਈ।
Counting rows, columns, and memory usageProfiling column data types and formatsChecking uniqueness of transaction IDsDetecting duplicate keys and composite keysIdentifying schema drift across data loadsSummarizing schema checks in validation reportsسبق 2ਗੁੰਮ ਮੁੱਲਾਂ ਨੂੰ ਇੰਪਿਊਟ ਕਰਨਾ ਅਤੇ ਹੈਂਡਲ ਕਰਨਾ ਬਨਾਮ ਰੋਅ ਹਟਾਉਣਾ: ਨਿਸ਼ਚਿਤ, ਵਰਗੀਕ੍ਰਿਤ ਅਤੇ ਬਾਈਨਰੀ ਫਲੈਗਾਂ ਲਈ ਨਿਯਮਇਹ ਭਾਗ ਟ੍ਰਾਂਜੈਕਸ਼ਨ ਟੇਬਲਾਂ ਵਿੱਚ ਗੁੰਮ ਡੇਟਾ ਨੂੰ ਹੈਂਡਲ ਕਰਨ ਦੀਆਂ ਰਣਨੀਤੀਆਂ ਬਾਰੇ ਚਰਚਾ ਕਰਦਾ ਹੈ, ਡਿਲੀਸ਼ਨ ਅਤੇ ਇੰਪਿਊਟੇਸ਼ਨ ਦੀ ਤੁਲਨਾ ਕਰਦਾ ਹੈ, ਅਤੇ ਨਿਸ਼ਚਿਤ ਨਿਆਮ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ ਨਿਸ਼ਚਿਤ, ਵਰਗੀਕ੍ਰਿਤ ਅਤੇ ਬਾਈਨਰੀ ਫੀਲਡਾਂ ਲਈ ਜੋ ਵਿਸ਼ਲੇਸ਼ਣਕ ਅਖੰਡਤਾ ਨੂੰ ਬਚਾਉਂਦੇ ਹਨ।
Profiling missingness patterns and mechanismsRules for dropping rows or columns safelyImputing numeric fields with robust methodsImputing categorical and binary flag variablesUsing indicator flags for imputed valuesDocumenting all missing data decisionsسبق 3ਤਾਰੀਖ ਪਾਰਸਿੰਗ ਅਤੇ ਟਾਈਮਜ਼ੋਨ ਹੈਂਡਲਿੰਗ ਆਰਡਰ_ਡੇਟ ਅਤੇ ਸਮੇਂ-ਅਧਾਰਿਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਲਈਇਹ ਭਾਗ ਆਰਡਰ ਤਾਰੀਖਾਂ ਅਤੇ ਸਮੇਂ ਦੇ ਮਜ਼ਬੂਤ ਪਾਰਸਿੰਗ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਵੱਖ-ਵੱਖ ਫਾਰਮੈਟਸ, ਟਾਈਮ ਜੋਨਾਂ, ਡੇਲਾਈਟ ਸੇਵਿੰਗ ਬਦਲਾਅਾਂ ਨੂੰ ਹੈਂਡਲ ਕਰਦਾ ਹੈ, ਅਤੇ ਰਿਪੋਰਟਿੰਗ ਅਤੇ ਮਾਡਲਿੰਗ ਲਈ ਇਕਸਾਰ ਰਹਿਣ ਵਾਲੇ ਸਮੇਂ-ਅਧਾਰਿਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।
Parsing heterogeneous date and datetime formatsStandardizing time zones for all transactionsHandling daylight saving and ambiguous timesDeriving order_hour, weekday, and seasonAligning timestamps to business reporting periodsValidating temporal consistency across tablesسبق 4CSV ਪੜ੍ਹਨਾ ਅਤੇ ਵੱਖਰੇ ਟੂਲਾਂ ਨੂੰ ਹੈਂਡਲ ਕਰਨਾ: ਐਕਸਲ, ਗੂਗਲ ਸ਼ੀਟਸ, ਪਾਈਥਨ (ਪੈਂਡਾਸ), ਅਤੇ ਆਰ (ਰੀਡਰ/ਡੇਟਾ.ਟੇਬਲ)ਇਹ ਭਾਗ ਐਕਸਲ, ਗੂਗਲ ਸ਼ੀਟਸ, ਪਾਈਥਨ ਅਤੇ ਆਰ ਤੋਂ CSV ਟ੍ਰਾਂਜੈਕਸ਼ਨ ਡੇਟਾ ਨੂੰ ਭਰੋਸੇਯੋਗ ਤਰੀਕੇ ਨਾਲ ਇੰਪੋਰਟ ਕਰਨ ਦੇ ਵੇਰਵੇ ਦਿੰਦਾ ਹੈ, ਡਿਲੀਮੀਟਰਾਂ, ਐਨਕੋਡਿੰਗਸ, ਡੇਟਾ ਟਾਈਪਸ ਅਤੇ ਆਟੋਮੇਸ਼ਨ ਪੈਟਰਨਾਂ ਨੂੰ ਸੰਬੋਧਿਤ ਕਰਦਾ ਹੈ ਜੋ ਟੂਲਾਂ ਵਿੱਚ ਇੰਟੇਕਸ਼ਨ ਨੂੰ ਇਕਸਾਰ ਰੱਖਦੇ ਹਨ।
Choosing delimiters, quotes, and decimal separatorsManaging file encodings and locale settingsImporting CSVs with Excel and Google SheetsReading CSVs with pandas read_csv optionsIngesting CSVs using R readr and data.tableAutomating repeatable CSV import workflowsسبق 5ਆਮ ਡੇਟਾ ਕੁਆਲਿਟੀ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੈਂਡਲ ਕਰਨਾ: ਗੁੰਮ ਮੁੱਲ, ਡੁਪਲੀਕੇਟ ਰੋਅ, ਅਸੰਗਤ ਐਨਕੋਡਿੰਗਸ ਅਤੇ ਖਰਾਬ ਤਾਰੀਖਾਂਇਹ ਭਾਗ ਟ੍ਰਾਂਜੈਕਸ਼ਨ ਡੇਟਾਸੈੱਟਾਂ ਵਿੱਚ ਆਮ ਡੇਟਾ ਕੁਆਲਿਟੀ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਗੁੰਮ ਮੁੱਲ, ਡੁਪਲੀਕੇਟ ਰੋਅ, ਅਸੰਗਤ ਐਨਕੋਡਿੰਗਸ ਅਤੇ ਖਰਾਬ ਤਾਰੀਖਾਂ ਸ਼ਾਮਲ ਹਨ, ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਪਤਾ ਲਗਾਉਣ, ਠੀਕ ਕਰਨ ਅਤੇ ਰੋਕਣ ਲਈ ਸਿਸਟਮੈਟਿਕ ਪਹੁੰਚ ਪੇਸ਼ ਕਰਦਾ ਹੈ।
Detecting and removing duplicate transaction rowsStandardizing text encodings and character setsCleaning malformed and inconsistent date fieldsResolving inconsistent categorical label valuesHandling mixed data types within columnsImplementing preventive upstream data checksسبق 6ਡਿਰਾਈਵਡ ਫੀਲਡ ਬਣਾਉਣਾ: ਯੂਨਿਟ ਪ੍ਰਤੀ ਰੈਵੇਨਿਊ, ਆਰਡਰ ਪ੍ਰਤੀ ਰੈਵੇਨਿਊ, ਆਰਡਰ_ਮਹੀਨਾ, ਗਾਹਕ_ਲਾਈਫਟਾਈਮ ਇੰਡੀਕੇਟਰ ਅਤੇ ਔਟਲਾਈਅਰਾਂ ਲਈ ਫਲੈਗਇਹ ਭਾਗ ਮੁੱਖ ਟ੍ਰਾਂਜੈਕਸ਼ਨਲ ਮੈਟ੍ਰਿਕਸ ਅਤੇ ਸਮੇਂਕਾਰੀ ਫੀਲਡਾਂ ਨੂੰ ਇੰਜੀਨੀਅਰ ਕਰਨ ਦੇ ਤਰੀਕੇ ਸਮਝਾਉਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਰੈਵੇਨਿਊ ਕੰਪੋਨੈਂਟਸ, ਆਰਡਰ-ਲੈਵਲ ਐਗਰੀਗੇਟਸ, ਕੋਹੌਰਟ ਇੰਡੀਕੇਟਰ ਅਤੇ ਮਜ਼ਬੂਤ ਔਟਲਾਈਅਰ ਫਲੈਗ ਸ਼ਾਮਲ ਹਨ ਜੋ ਡਾਉਨਸਟ੍ਰੀਮ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਮਾਨੀਟਰਿੰਗ ਨੂੰ ਸਮਰਥਨ ਦਿੰਦੇ ਹਨ।
Computing revenue per unit and per orderDeriving order_month and calendar attributesBuilding customer lifetime value indicatorsCreating discount and promotion intensity flagsDesigning statistical outlier detection rulesValidating derived fields against raw dataسبق 7ਬਿਜ਼ਨਸ ਸੀਮਾਵਾਂ ਨੂੰ ਵੈਲੀਡੇਟ ਕਰਨਾ: ਯੂਨਿਟ_ਪ੍ਰਾਈਸ >= 0, ਯੂਨਿਟਸ_ਸੋਲਡ ਇੰਟੀਜਰ >=1, ਰੈਵੇਨਿਊ = ਯੂਨਿਟਸ_ਸੋਲਡ * ਯੂਨਿਟ_ਪ੍ਰਾਈਸ * (1 - ਡਿਸਕਾਉਂਟ_ਐਪਲਾਈਡ) ਚੈੱਕ ਅਤੇ ਰਿਕੰਗਸੀਲੇਸ਼ਨਇਹ ਭਾਗ ਟ੍ਰਾਂਜੈਕਸ਼ਨ ਡੇਟਾ ਉੱਤੇ ਬਿਜ਼ਨਸ ਨਿਯਮਾਂ ਨੂੰ ਐਨਕੋਡ ਅਤੇ ਵੈਰੀਫਾਈ ਕਰਨ ਦੇ ਤਰੀਕੇ ਸੰਬੋਧਿਤ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਕੀਮਤ ਅਤੇ ਮਾਤਰਾ ਸੀਮਾਵਾਂ, ਰੈਵੇਨਿਊ ਫਾਰਮੂਲੇ, ਡਿਸਕਾਉਂਟ ਲੌਜਿਕ ਅਤੇ ਸੋਰਸ ਸਿਸਟਮਾਂ ਨਾਲ ਗਣੇ ਹੋਏ ਮੈਟ੍ਰਿਕਸ ਦੀ ਰਿਕੰਗਸੀਲੇਸ਼ਨ ਸ਼ਾਮਲ ਹੈ।
Enforcing nonnegative prices and valid currenciesChecking integer units_sold and quantity boundsVerifying revenue and discount consistencyReconciling aggregates with source system totalsFlagging and routing failed business rule checksMaintaining a catalog of validation rulesسبق 8ਕਲੀਨਿੰਗ ਸਟੈਪਸ ਅਤੇ ਰੀਪ੍ਰੋਡਿਊਸੀਬਲ ਪਾਈਪਲਾਈਨਾਂ ਨੂੰ ਡਾਕੂਮੈਂਟ ਕਰਨਾ (ਪੈਂਡਾਸ/ਆਰ ਸਕ੍ਰਿਪਟਸ, ਐਕਸਲ ਸਟੈਪਸ ਅਤੇ ਲੌਗਿੰਗ)ਇਹ ਭਾਗ ਹਰੇਕ ਕਲੀਨਿੰਗ ਅਤੇ ਟ੍ਰਾਂਸਫਾਰਮੇਸ਼ਨ ਸਟੈਪ ਨੂੰ ਡਾਕੂਮੈਂਟ ਕਰਨ ਦੇ ਤਰੀਕੇ ਸਮਝਾਉਂਦਾ ਹੈ, ਸਕ੍ਰਿਪਟਸ, ਨੋਟਬੁੱਕਸ ਅਤੇ ਸਟ੍ਰਕਚਰਡ ਲੌਗਸ ਵਰਤ ਕੇ ਰੀਪ੍ਰੋਡਿਊਸੀਬਲ ਪਾਈਪਲਾਈਨਾਂ ਬਣਾਉਂਦੇ ਹੋਏ ਜੋ ਆਡਿਟ, ਰੀਰਨ ਅਤੇ ਟੀਮਾਂ ਵਿੱਚ ਸਾਂਝੀਆਂ ਕੀਤੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ।
Writing reproducible pandas cleaning scriptsBuilding R scripts and notebooks for cleaningRecording manual Excel transformation stepsDesigning logging for data cleaning operationsVersioning datasets and transformation codeCreating human‑readable data cleaning reports