Lekcija 1Skaliranje in transformacija značilk: log transformacije za asimetrične prihodke/količine, robustno skaliranjeUporabite skaliranje in transformacije za stabilizacijo variance in zmanjšanje asimetrije v prihodkih in količinah, z uporabo log transformacij, robustnega skaliranja in transformacij moči, pri čemer ohranjate interpretabilnost kjer je potrebno.
Diagnosing skewness and heavy tailsLog and power transformationsStandard, min-max, and robust scalingScaling pipelines with sklearnInverse transforms for interpretationLekcija 2Inženirstvo značilk za datume: dan v tednu, ura, sezonskost, nedavnost in doba trajanja iz datuma naročila in zgodovine strankeInženirite značlike na osnovi časa iz datumov naročil in zgodovine strank, vključno s tednom, uro, sezonskostjo, nedavnostjo in dobo trajanja, pri čemer upoštevate časovni red, da preprečite puščanje v napovedovanju in klasifikaciji.
Extracting calendar-based featuresCyclic encoding of time variablesSeasonality and holiday indicatorsRecency and tenure feature designTime-aware leakage preventionLekcija 3Strategije imputacije za numerične (mediana, KNN, na osnovi modela) in kategorične polja (način, 'neznano')Primerjajte strategije imputacije za numerične (mediana, KNN, na osnovi modela) in kategorične polja (način, 'neznano'), z diagnostiko za oceno pristranskosti, variance in robustnosti dopolnjenega nabora podatkov.
Missingness mechanisms and patternsSimple numeric imputation methodsKNN and model-based imputationCategorical mode and "unknown" binsUsing missingness indicator flagsLekcija 4Ustvarjanje ciljne spremenljivke za izbrano napoved (binarni vračilo, kontinuirani prihodek, oznaka zamujene dostave)Definirajte in konstruirajte ciljne spremenljivke za ključne poslovne napovedi, vključno z binarno zastavico vračila, kontinuiranimi prihodki in oznakami zamujene dostave, zagotavljate jasne definicije in usklajenost z metrikami ocenjevanja.
Choosing the prediction objectiveDefining return and churn labelsRevenue and margin regression targetsLate delivery and SLA breach labelsAligning targets with metricsLekcija 5Tehnike kodiranja: enoraka koda, ciljno kodiranje, frekvenčno kodiranje, vgrajevanja za visoko-kardinalne značlikeRaziščite metode kodiranja za kategorične spremenljivke, od preproste enorake kode do ciljnega, frekvenčnega in kodiranja na osnovi vgrajevanj, z navodili za preprečevanje puščanja, regularizacijo in obravnavo visoko-kardinalnih značilk.
When to use one-hot encodingTarget encoding with leakage controlFrequency and count encodingsHashing and rare category handlingLearned embeddings for categoriesLekcija 6Zaznavanje in obravnava osamelcev za ceno, količino, delivery_time_days in prihodkeNaučite se zaznavati, diagnosticirati in obravnavati osamelce v cenah, količinah, času dostave in prihodkih z uporabo statističnih pravil in poslovne logike, minimizirate izgubo informacij, medtem ko ščitite modele pred nestabilnostjo.
Univariate outlier detection rulesMultivariate and contextual outliersCapping, trimming, and winsorizationBusiness-rule based outlier flagsImpact of outliers on model trainingLekcija 7Agregacije in značlike na ravni stranke: zgodovinska stopnja vračil, povprečna vrednost naročila, pogostost, čas od zadnjega naročilaUstvarite agregacije na ravni stranke, kot so zgodovinska stopnja vračil, povprečna vrednost naročila, pogostost in čas od zadnjega naročila, da zajamete vedenje stranke za vse življenje in izboljšate segmentacijo in napovedno uspešnost.
Customer-level aggregation designHistorical return and complaint ratesAverage order value and basket sizePurchase frequency and recencyCustomer lifetime value proxiesLekcija 8Značlike za promocije in cene: efektivna_enotna_cena, odstotek_popusta, zastavica za uporabljen popustUstvarite značlike za promocije in cene, kot so efektivna enotna cena, odstotek popusta in zastavica za uporabljen popust, da zajamete intenzivnost promocij, vpliv na maržo in občutljivost strank na spremembe cen skozi čas.
Computing effective unit priceDiscount percentage and depthBinary and multi-level promo flagsStacked and overlapping promotionsPrice elasticity proxy featuresLekcija 9Strategije razdelitve učenja/test za podatke časovnih vrst/naročil (razdelitev na osnovi časa, stratificirana po cilju, izključitev strank)Oblikujte strategije razdelitve učenja/testiranja za podatke časovnih vrst/naročil, z uporabo razdelitev na osnovi časa, stratifikacije po cilju in izključitve strank, da dobite realistične in nepristranske ocene uspešnosti.
Pitfalls of random splits in time dataTime-based and rolling window splitsStratified splits for imbalanced targetsCustomer and store level holdoutsCross-validation for temporal dataLekcija 10Geografske in logistične značlike: metrike na ravni države, pošiljateljske cone, tipične distribucije časa dostaveOblikujte geografske in logistične značlike z uporabo metrik na ravni države, pošiljateljskih con in distribucij časa dostave, da zajamete operativne omejitve, regionalno vedenje in variabilnost storitev na ravni napovednih modelov.
Country and region level aggregationsDefining shipping zones and lanesDelivery time distribution featuresDistance and cross-border indicatorsService level and SLA featuresLekcija 11Standardizacija in čiščenje kategoričnih spremenljivk: kategorija_izdelka, država, marketinški_kanal, tip_napraveStandardizirajte in očistite kategorične spremenljivke, kot so kategorija izdelka, država, marketinški kanal in tip naprave, z normalizacijo oznak, združevanjem redkih ravni in uveljavitvijo skladnih taksonomij čez nabore podatkov.
Detecting inconsistent category labelsString normalization and mappingMerging rare and noisy categoriesMaintaining category taxonomiesDocumenting categorical cleaning