سبق 1ਸਕੇਲਿੰਗ ਤੇ ਬਦਲਾਅ: ਸਟੈਂਡਰਡਾਈਜ਼ੇਸ਼ਨ, ਮਿਨ-ਮੈਕਸ, ਵਿਖੜੇ ਫੀਚਰਾਂ ਲਈ ਲੌਗ ਬਦਲਾਅਮਾਡਲਾਂ ਲਈ ਨੰਬਰਿਕ ਫੀਚਰਾਂ ਨੂੰ ਸਕੇਲਿੰਗ ਤੇ ਬਦਲੋ। ਤੁਸੀਂ ਸਟੈਂਡਰਡਾਈਜ਼ੇਸ਼ਨ, ਮਿਨ-ਮੈਕਸ ਸਕੇਲਿੰਗ, ਤੇ ਲੌਗ ਬਦਲਾਅ ਲਾਗੂ ਕਰੋ ਗੇ, ਵਿਖੜੀ ਵੰਡਾਂ ਨਾਲ ਨਜਿੱਠੋ ਗੇ, ਤੇ ਜਾਣਕਾਰੀ ਲੀਕ ਨਾ ਹੋਣ ਨਾਲ ਪਾਈਪਲਾਈਨਾਂ ਵਿੱਚ ਸਕੇਲਰ ਜੋੜੋ ਗੇ।
When scaling is necessary for modelsStandardScaler and z-score intuitionMinMaxScaler and feature rangesLog and power transforms for skewRobust scaling for outlier resistanceFitting scalers only on training dataسبق 2ਆਊਟਲਾਈਅਰ ਪਛਾਣ ਤੇ ਹੈਂਡਲਿੰਗ: ਆਂਕੜਾਤਮਕ IQR, z-ਸਕੋਰ, ਡੋਮੇਨ ਥਰੈਸ਼ਹੋਲਡ, ਕੈਪਿੰਗਟੈਬੂਲਰ ਡਾਟਾ ਵਿੱਚ ਆਊਟਲਾਈਅਰ ਪਛਾਣੋ ਤੇ ਇਲਾਜ ਕਰੋ। ਤੁਸੀਂ IQR ਤੇ z-ਸਕੋਰ ਨਿਯਮ ਵਰਤੋ ਗੇ, ਡੋਮੇਨ ਥਰੈਸ਼ਹੋਲਡ, ਤੇ ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ, ਫਿਰ ਕੈਪਿੰਗ, ਬਦਲਾਅ, ਤੇ ਹਟਾਉਣ ਰਣਨੀਤੀਆਂ ਦੀ ਤੁਲਨਾ ਕਰੋ ਗੇ ਜਦੋਂ ਸਿਗਨਲ ਬਚਾਉਂਦੇ ਹੋਏ ਲੀਕੇਜ ਤੋਂ ਬਚੋ।
Visualizing outliers with boxplotsIQR rule and Tukey fences in practicez-score based outlier detectionDomain thresholds and business rulesCapping and winsorization techniquesImpact of outliers on models and metricsسبق 3ਪੈਂਡਾਸ ਤੇ ਨੰਪਾਈ ਨਾਲ ਡਾਟਾ ਲੋਡ ਤੇ ਜਾਂਚੋ (ਡੀਟਾਈਪਸ, ਹੈੱਡ, ਡਿਸਕ੍ਰਾਈਬ)ਪੈਂਡਾਸ ਤੇ ਨੰਪਾਈ ਨਾਲ ਡਾਟਾ ਲੋਡ, ਜਾਂਚ, ਤੇ ਸੈਨਿਟੀ-ਚੈੱਕ ਕਰੋ। ਤੁਸੀਂ ਡੀਟਾਈਪਸ, ਮਿਸਿੰਗਨੈੱਸ, ਵੰਡਾਂ, ਤੇ ਬੁਨਿਆਦੀ ਆਂਕੜੇ ਜਾਂਚੋ ਗੇ, ਸਪੱਸ਼ਟ ਡਾਟਾ ਮੁੱਦੇ ਪਛਾਣੋ ਗੇ, ਤੇ ਮਾਡਲਿੰਗ ਲਈ ਸਾਫ਼, ਚੰਗੀ ਟਾਈਪ ਵਾਲੇ ਡੇਟਾਫ੍ਰੇਮ ਬਣਾਓ ਗੇ।
Reading CSV and Parquet efficientlyUnderstanding dtypes and type castingUsing head, sample, and tail for checksdescribe, value_counts, and basic statsDetecting obvious data quality issuesMemory usage and downcasting tacticsسبق 4ਡਾਟਾ ਪਾਈਪਲਾਈਨਾਂ ਤੇ ਫਿਰ ਤੋਂ ਉਤਪਾਦਨ: ਸਕਿਲੈਰਨ-ਲਰਨ ਪਾਈਪਲਾਈਨਾਂ, ਜੌਬਲਿਬ ਨਾਲ ਪ੍ਰੀਪ੍ਰੋਸੈੱਸਰ ਸੇਵ ਕਰੋਸਕਿਲੈਰਨ-ਲਰਨ ਪਾਈਪਲਾਈਨਾਂ ਨਾਲ ਫਿਰ ਤੋਂ ਉਤਪਾਦਨ ਵਾਲੇ ਪ੍ਰੀਪ੍ਰੋਸੈੱਸਿੰਗ ਵਰਕਫਲੋ ਬਣਾਓ। ਤੁਸੀਂ ਟ੍ਰਾਂਸਫਾਰਮਰ ਜੋੜੋ ਗੇ, ਫਿੱਟ ਤੋਂ ਟ੍ਰਾਂਸਫਾਰਮ ਵੱਖ ਕਰੋ ਗੇ, ਜੌਬਲਿਬ ਨਾਲ ਪ੍ਰੀਪ੍ਰੋਸੈੱਸਰ ਸਟੋਰ ਕਰੋ ਗੇ, ਤੇ ਟ੍ਰੇਨਿੰਗ ਤੇ ਇਨਫਰੈਂਸ ਵਿਵਹਾਰ ਇਕਸਾਰ ਯਕੀਨੀ ਬਣਾਓ ਗੇ।
Basics of scikit-learn Pipeline objectsColumnTransformer for mixed feature typesCustom transformers with fit and transformPersisting pipelines and steps with joblibVersioning data, code, and parametersTesting pipeline behavior end to endسبق 5ਟ੍ਰੇਨ-ਟੈਸਟ ਵੰਡ ਰਣਨੀਤੀਆਂ: ਰੈਂਡਮ, ਸਮੇਂ ਅਧਾਰਤ ਵੰਡਾਂ, ਅਸੰਤੁਲਿਤ ਟਾਰਗੇਟਸ ਲਈ ਸਟ੍ਰੈਟੀਫਿਕੇਸ਼ਨਸੱਚੀ ਮਾਡਲ ਮੁਲਾਂਕਣ ਲਈ ਡਾਟਾ ਵੰਡੋ। ਤੁਸੀਂ ਰੈਂਡਮ ਤੇ ਸਮੇਂ ਅਧਾਰਤ ਵੰਡਾਂ ਦੀ ਤੁਲਨਾ ਕਰੋ ਗੇ, ਅਸੰਤੁਲਿਤ ਟਾਰਗੇਟਸ ਲਈ ਸਟ੍ਰੈਟੀਫਿਕੇਸ਼ਨ ਲਾਗੂ ਕਰੋ ਗੇ, ਲੀਕੇਜ ਤੋਂ ਬਚੋ ਗੇ, ਤੇ ਅਸਲੀ ਡਿਪਲਾਏਮੈਂਟ ਸੀਨੇਰੀਓ ਨਾਲ ਜੁੜੀਆਂ ਵੰਡਾਂ ਡਿਜ਼ਾਈਨ ਕਰੋ ਗੇ।
Random train-test and validation splitsTime-based splits for temporal datasetsStratified splits for imbalanced targetsPreventing target and time leakageCross-validation schemes for tabular dataAligning splits with deployment settingسبق 6ਮਿਸਿੰਗ ਵੈਲੂ ਰਣਨੀਤੀਆਂ: ਇੰਪਿਊਟੇਸ਼ਨ ਵਿਧੀਆਂ, ਡ੍ਰੌਪ ਵਿਚ ਫਲੈਗ, ਡੋਮੇਨ-ਅਜਾਹ ਫੈਸਲੇਮਿਸਿੰਗ ਵੈਲੂਜ਼ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਸਿਧਾਂਤਕ ਰਣਨੀਤੀਆਂ ਖੋਜੋ। ਤੁਸੀਂ ਮਿਸਿੰਗਨੈੱਸ ਪੈਟਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰੋ ਗੇ, ਡ੍ਰੌਪ ਵਿਚ ਇੰਪਿਊਟ ਫੈਸਲੇ ਦੀ ਤੁਲਨਾ ਕਰੋ ਗੇ, ਨੰਬਰਿਕ ਤੇ ਵਰਗੀਕਰਨ ਇੰਪਿਊਟਰ ਲਾਗੂ ਕਰੋ ਗੇ, ਮਿਸਿੰਗ ਫਲੈਗ ਜੋੜੋ ਗੇ, ਤੇ ਚੋਣਾਂ ਲਈ ਡੋਮੇਨ ਗਿਆਨ ਵਰਤੋ ਗੇ।
Types and patterns of missingnessDropping rows or columns safelyNumeric imputation: mean, median, modelsCategorical imputation and new categoriesMissingness indicator flags as featuresDomain-driven imputation decisionsسبق 7ਯੂਜ਼ਰ ਵਿਹਾਰ ਲਈ ਫੀਚਰ ਇੰਜੀਨੀਅਰਿੰਗ: ਗਿਣਤੀਆਂ, ਰੀਸੈਂਸੀ, ਫ੍ਰੀਕੁਐਂਸੀ, ਔਸਤ, ਅਨੁਪਾਤਪਾਈਥਨ ਵਿੱਚ ਮਜ਼ਬੂਤ ਯੂਜ਼ਰ ਵਿਹਾਰ ਫੀਚਰ ਇੰਜੀਨੀਅਰ ਕਰੋ। ਤੁਸੀਂ ਗਿਣਤੀਆਂ, ਰੀਸੈਂਸੀ, ਫ੍ਰੀਕੁਐਂਸੀ, ਔਸਤ, ਤੇ ਅਨੁਪਾਤ ਗਣਨਾ ਕਰੋ ਗੇ, ਵਿਖੜਾ ਤੇ ਸਪਾਰਸਿਟੀ ਨਾਲ ਨਜਿੱਠੋ ਗੇ, ਤੇ ਇੰਜੀਨੀਅਰ ਕੀਤੇ ਫੀਚਰਾਂ ਦੀ ਸਥਿਰਤਾ, ਗਲਤਫਹਿਮੀ ਯੋਗਤਾ, ਤੇ ਅਨੁਮਾਨਕ ਸਮਰਥਾ ਵੈਲੀਡੇਟ ਕਰੋ ਗੇ।
Event count features and aggregation windowsRecency and frequency feature computationAverage value and intensity metricsRatio and share features for behavior mixHandling sparsity and rare behavior patternsValidating stability of engineered featuresسبق 8ਸਮੇਂ ਅਧਾਰਤ ਤੇ ਸੈਸ਼ਨਾਈਜ਼ੇਸ਼ਨ ਪ੍ਰੀਪ੍ਰੋਸੈੱਸਿੰਗ: ਸੈਸ਼ਨ ਫੀਚਰ ਡੇਰਿਵ ਕਰੋ, ਸਮਾਂ ਵਿੰਡੋਜ਼ਵਿਹਾਰਕ ਡਾਟਾ ਲਈ ਸਮੇਂ ਅਧਾਰਤ ਪ੍ਰੀਪ੍ਰੋਸੈੱਸਿੰਗ ਤੇ ਸੈਸ਼ਨਾਈਜ਼ੇਸ਼ਨ ਸਿੱਖੋ। ਤੁਸੀਂ ਸੈਸ਼ਨ ਨਿਰਧਾਰਤ ਕਰੋ ਗੇ, ਸਮਾਂ ਵਿੰਡੋਜ਼ ਬਣਾਓ ਗੇ, ਸੈਸ਼ਨ-ਲੈਵਲ ਫੀਚਰ ਡੇਰਿਵ ਕਰੋ ਗੇ, ਟਾਈਮ ਜ਼ੋਨਾਂ ਤੇ ਗੈਪਸ ਨਾਲ ਨਜਿੱਠੋ ਗੇ, ਤੇ ਡਾਊਨਸਟ੍ਰੀਮ ਮਾਡਲਾਂ ਲਈ ਸਮਾਂ-ਅਜਾਹ ਇਨਪੁਟ ਤਿਆਰ ਕਰੋ ਗੇ।
Timestamp parsing and normalizationDefining sessions with inactivity gapsRolling and sliding time windowsAggregating events to session featuresHandling time zones and daylight shiftsLabel leakage in temporal featuresسبق 9ਵਰਗੀਕਰਨ ਫੀਚਰਾਂ ਦਾ ਐਨਕੋਡਿੰਗ: ਵਨ-ਹੌਟ, ਆਰਡੀਨਲ, ਟਾਰਗੇਟ ਐਨਕੋਡਿੰਗ ਗਾਈਡਲਾਈਨਾਂ ਤੇ ਗਿਰਾਵਟਾਂਮਸ਼ੀਨ ਲਰਨਿੰਗ ਲਈ ਵਰਗੀਕਰਨ ਵਾਲੀਆਂ ਵੈਰੀਏਬਲਾਂ ਦਾ ਐਨਕੋਡਿੰਗ ਮਾਸਟਰ ਕਰੋ। ਤੁਸੀਂ ਵਨ-ਹੌਟ, ਆਰਡੀਨਲ, ਤੇ ਟਾਰਗੇਟ ਐਨਕੋਡਿੰਗ ਲਾਗੂ ਕਰੋ ਗੇ, ਮਾਡਲ ਟਾਈਪ ਤੇ ਕਾਰਡੀਨੈਲਟੀ ਨਾਲ ਐਨਕੋਡਰ ਚੁਣੋ ਗੇ, ਤੇ ਲੀਕੇਜ, ਓਵਰਫਿਟਿੰਗ, ਤੇ ਵਧਦੇ ਫੀਚਰ ਸਪੇਸ ਤੋਂ ਬਚੋ ਗੇ।
When to use one-hot encodingOrdinal encoding and ordering pitfallsTarget encoding with leakage controlHandling high-cardinality categoriesEncoding choices by model familyDealing with unseen categories at inference