Lecția 1Scalarea și transformarea caracteristicilor: transformări logaritmice pentru venituri/cantități înclinate, scalare robustăAplicați scalări și transformări pentru stabilizarea variaței și reducerea înclinației în venituri și cantități, folosind transformări logaritmice, scalare robustă și transformări de putere, păstrând interpretabilitatea unde este necesară.
Diagnosticarea înclinației și cozilor greleTransformări logaritmice și de putereScalare standard, min-max și robustăPipeline-uri de scalare cu sklearnTransformări inverse pentru interpretareLecția 2Ingineria caracteristicilor datetime: zi lucrătoare, oră, sezonalitate, caracteristici de recență și vechime din order_date și istoricul clientuluiDezvoltați caracteristici bazate pe timp din datele de comandă și istoricul clientului, incluzând zi lucrătoare, oră, sezonalitate, recență și vechime, respectând ordinea temporală pentru a evita scurgerile în sarcinile de prognoză și clasificare.
Extracția caracteristicilor bazate pe calendarCodificare ciclică a variabilelor de timpIndicatori de sezonalitate și sărbătoriProiectarea caracteristicilor de recență și vechimePrevenirea scurgerilor conștientă de timpLecția 3Strategii de imputare pentru câmpuri numerice (mediana, KNN, bazată pe model) și categorice (modă, 'necunoscut')Comparați strategiile de imputare numerică și categorială, incluzând mediana, KNN, bazată pe model, modă și categorii explicite 'necunoscut', cu diagnostice pentru evaluarea biasului, variaței și robusteții setului de date completat.
Mecanisme și modele de lipsăMetode simple de imputare numericăImputare KNN și bazată pe modelModă categorială și găleți 'necunoscut'Folosirea indicatorilor de lipsăLecția 4Crearea variabilei țintă pentru predicția aleasă (retur binar, venit continuu, etichetă livrare întârziată)Definiți și construiți variabile țintă pentru predicții cheie de afaceri, incluzând steaguri binare de retur, venit continuu și etichete de livrare întârziată, asigurând definiții clare și aliniere cu metricile de evaluare.
Alegerea obiectivului de predicțieDefinirea etichetelor de retur și churnȚinte de regresie pentru venituri și marjeEtichete de livrare întârziată și încălcări SLAAlinierea țintelor cu metricileLecția 5Tehnici de codare: one-hot, codare țintă, codare frecvență, embedding-uri pentru caracteristici cu cardinalitate mareExplorați metode de codare pentru variabile categorice, de la one-hot simplu la codări țintă, frecvență și bazate pe embedding-uri, cu ghiduri pentru prevenirea scurgerilor, regularizare și gestionarea caracteristicilor cu cardinalitate mare.
Când să folosiți codarea one-hotCodare țintă cu control al scurgerilorCodări de frecvență și numărHashing și gestionarea categoriilor rareEmbedding-uri învățate pentru categoriiLecția 6Detectarea și gestionarea outlierelor pentru preț, cantitate, delivery_time_days și venituriÎnvățați să detectați, diagnosticați și tratați outlier-ele în preț, cantitate, timp de livrare și venituri folosind reguli statistice și logică de afaceri, minimizând pierderea de informații în timp ce protejați modelele ulterioare de instabilitate.
Reguli de detectare univariate a outlierelorOutliere multivariate și contextualeCapping, trimming și winsorizareSteaguri de outliere bazate pe reguli de afaceriImpactul outlierelor asupra antrenării modeluluiLecția 7Agregări și caracteristici la nivel de client: rata istorică de retur, valoare medie comandă, frecvență, timp de la ultima comandăConstruiți agregări la nivel de client precum rata istorică de retur, valoarea medie a comenzii, frecvența achizițiilor și recența pentru a captura comportamentul pe viață al clientului și a îmbunătăți segmentarea și performanța predictivă.
Proiectarea agregărilor la nivel de clientRate istorice de retur și reclamațiiValoare medie comandă și dimensiune coșFrecvența achizițiilor și recențaProxy-uri pentru valoarea pe viață a clientuluiLecția 8Caracteristici de promovare și preț: effective_unit_price, discount_pct, steag discount_appliedCreați caracteristici de promovare și preț precum prețul unitar efectiv, procentul de discount și steaguri de discount pentru a captura intensitatea promoțională, impactul asupra marjelor și sensibilitatea clienților la schimbările de preț în timp.
Calculul prețului unitar efectivProcentul și profunzimea discountuluiSteaguri promoționale binare și multinivelPromovări stivuite și suprapuseCaracteristici proxy pentru elasticitatea prețuluiLecția 9Strategii de split train/test pentru date time-series/comandă (split bazat pe timp, stratificat pe țintă, holdout client)Proiectați strategii de split train și test pentru date tranzacționale ordonate temporal, folosind split-uri bazate pe timp, stratificare pe țintă și scheme de holdout client pentru obținerea estimărilor realiste și nebiasede ale performanței.
Problemele split-urilor aleatoare în date temporaleSplit-uri bazate pe timp și ferestre rulanteSplit-uri stratificate pentru ținte dezechilibrateHoldout-uri la nivel de client și magazinValidare încrucișată pentru date temporaleLecția 10Caracteristici geografice și logistice: metrici la nivel de țară, zone de livrare, distribuție tipică delivery_timeProiectați caracteristici geografice și logistice folosind metrici la nivel de țară, zone de livrare și distribuții de timp de livrare pentru a captura constrângeri operaționale, comportament regional și variabilitate la nivel de serviciu în modelele predictive.
Agregări la nivel de țară și regiuneDefinirea zonelor și rutelor de livrareCaracteristici de distribuție a timpului de livrareIndicatori de distanță și cross-borderCaracteristici de nivel de serviciu și SLALecția 11Standardizarea și curățarea variabilelor categorice: product_category, country, marketing_channel, device_typeStandardizați și curățați variabile categorice precum categoria de produs, țară, canal de marketing și tip de dispozitiv prin normalizarea etichetelor, contopirea nivelurilor rare și impunerea taxonomiilor consistente în seturile de date.
Detectarea etichetelor de categorii inconsistenteNormalizarea șirurilor și mapareaContopirea categoriilor rare și zgomotoaseMenținerea taxonomiilor de categoriiDocumentarea curățării categorice