שיעור 1קנה מידה ושינוי תכונות: שינויי לוג לעקמומיות הכנסה/כמות, קנה מידה חזקיישמו קנה מידה ושינויים לייצוב שונות והפחתת עקמומיות בהכנסות וכמות, בעזרת שינויי לוג, קנה מידה חזק ושינויי כוח תוך שמירה על פרשנות במקומות הנדרשים.
Diagnosing skewness and heavy tailsLog and power transformationsStandard, min-max, and robust scalingScaling pipelines with sklearnInverse transforms for interpretationשיעור 2הנדסת תכונות תאריך-שעה: יום בשבוע, שעה, עונתיות, תכונות עדכניות וותק מתאריך הזמנה והיסטוריית לקוחהנדסו תכונות מבוססות זמן מתאריכי הזמנות והיסטוריית לקוח, כולל יום בשבוע, שעה, עונתיות, עדכניות וותק, תוך כיבוד סדר זמני למניעת דליפה במשימות תחזית וסיווג.
Extracting calendar-based featuresCyclic encoding of time variablesSeasonality and holiday indicatorsRecency and tenure feature designTime-aware leakage preventionשיעור 3אסטרטגיות השלמה לשדות מספריים (חציון, KNN, מבוסס מודל) וקטגוריאליים (מצב, 'לא ידוע')השוו אסטרטגיות השלמה עבור שדות מספריים (חציון, KNN, מבוסס מודל) ושדות קטגוריאליים (מצב, 'לא ידוע'), עם אבחונים להערכת הטיה, שונות ועמידות של מערך הנתונים המושלם.
Missingness mechanisms and patternsSimple numeric imputation methodsKNN and model-based imputationCategorical mode and "unknown" binsUsing missingness indicator flagsשיעור 4יצירת משתנה יעד לחיזוי הנבחר (הוחזר בינארי, הכנסה רציפה, תווית משלוח מאוחר)גדירו ובנו משתני יעד לחיזויים עסקיים מרכזיים, כולל דגלי החזרה בינאריים, הכנסה רציפה ותוויות משלוח מאוחר, תוך הבטחת הגדרות ברורות ויישור עם מדדי הערכה.
Choosing the prediction objectiveDefining return and churn labelsRevenue and margin regression targetsLate delivery and SLA breach labelsAligning targets with metricsשיעור 5טכניקות קידוד: one-hot, קידוד יעד, קידוד תדירות, embeddings לתכונות קרדינליות גבוהותחקרו שיטות קידוד למשתנים קטגוריאליים, משיטת one-hot פשוטה לקידוד יעד, תדירות וקידוד מבוסס embeddings, עם הנחיות למניעת דליפה, רגולריזציה וטיפול בתכונות קרדינליות גבוהות.
When to use one-hot encodingTarget encoding with leakage controlFrequency and count encodingsHashing and rare category handlingLearned embeddings for categoriesשיעור 6זיהוי וטיפול באאוטליירים למחיר, כמות, זמן_משלוח_ימים והכנסהלמדו לזהות, לאבחן ולטפל באאוטליירים במחיר, כמות, זמן_משלוח_ימים והכנסה בעזרת כללים סטטיסטיים והיגיון עסקי, תוך מזעור אובדן מידע והגנה על מודלים מורדים מפני חוסר יציבות.
Univariate outlier detection rulesMultivariate and contextual outliersCapping, trimming, and winsorizationBusiness-rule based outlier flagsImpact of outliers on model trainingשיעור 7אגרגציות ותכונות ברמת לקוח: שיעור החזרות היסטורי, ערך הזמנה ממוצע, תדירות, זמן מאז הזמנה אחרונהבנו אגרגציות ברמת לקוח כמו שיעור החזרות היסטורי, ערך הזמנה ממוצע, תדירות וזמן מאז הזמנה אחרונה כדי לתפוס התנהגות לכל החיים של לקוח ולשפר סגמנטציה וביצועים חזויים.
Customer-level aggregation designHistorical return and complaint ratesAverage order value and basket sizePurchase frequency and recencyCustomer lifetime value proxiesשיעור 8תכונות מבצעים ומחירים: מחיר_יחידה_אפקטיבי, אחוז_הנחה, דגל הנחה_מיושמתצרו תכונות מבצעים ומחירים כמו מחיר יחידה אפקטיבי, אחוז הנחה ודגל הנחה יישומי כדי לתפוס עוצמת מבצעים, השפעת מגמה ורגישות לקוח לשינויי מחיר לאורך זמן.
Computing effective unit priceDiscount percentage and depthBinary and multi-level promo flagsStacked and overlapping promotionsPrice elasticity proxy featuresשיעור 9אסטרטגיות פיצול אימון/בדיקה לנתוני סדרות זמן/הזמנות (פיצול מבוסס זמן, מדורג לפי יעד, הפרשה לקוחות)תכננו אסטרטגיות פיצול אימון/בדיקה לנתוני סדרות זמן/הזמנות, בעזרת פיצולים מבוססי זמן, סטרטיפיקציה לפי יעד והפרשה לקוחות להשגת הערכות ביצועים ריאליסטיות ולא מוטות.
Pitfalls of random splits in time dataTime-based and rolling window splitsStratified splits for imbalanced targetsCustomer and store level holdoutsCross-validation for temporal dataשיעור 10תכונות גיאוגרפיות ולוגיסטיות: מדדים ברמת מדינה, אזורי משלוח, תפוצת זמן_משלוח טיפוסיתתכננו תכונות גיאוגרפיות ולוגיסטיות בעזרת מדדים ברמת מדינה, אזורי משלוח ותפוצות זמן משלוח כדי לתפוס מגבלות תפעוליות, התנהגות אזורית ושונות רמת שירות במודלים חזויים.
Country and region level aggregationsDefining shipping zones and lanesDelivery time distribution featuresDistance and cross-border indicatorsService level and SLA featuresשיעור 11סטנדרטיזציה וניקוי משתנים קטגוריאליים: קטגוריית_מוצר, מדינה, ערוץ_שיווק, סוג_מכשירסטנדרטיזציה וניקוי משתנים קטגוריאליים כמו קטגוריית מוצר, מדינה, ערוץ שיווק, סוג מכשיר בעזרת נורמליזציה של תוויות, מיזוג רמות נדירות ואכיפת טקסונומיות עקביות.
Detecting inconsistent category labelsString normalization and mappingMerging rare and noisy categoriesMaintaining category taxonomiesDocumenting categorical cleaning