Lekcja 1Skalowanie i transformacja cech: transformacje logarytmiczne dla skrzywionego przychodu/ilości, skalowanie robustneZastosuj skalowanie i transformacje do stabilizacji wariancji i redukcji skosu w przychodzie i ilości, używając transformacji logarytmicznych, skalowania robustnego i transformacji potęgowych, zachowując interpretowalność tam gdzie potrzeba.
Diagnozowanie skosu i ciężkich ogonówTransformacje logarytmiczne i potęgoweSkalowanie standardowe, min-max i robustnePipelines skalowania z sklearnOdwrotne transformacje do interpretacjiLekcja 2Inżynieria cech daty i czasu: dzień tygodnia, godzina, sezonowość, cechy aktualności i stażu z order_date i historii klientaStwórz cechy oparte na czasie z dat zamówień i historii klienta, w tym dzień tygodnia, godzina, sezonowość, aktualność i staż, szanując porządek czasowy, aby uniknąć przecieku w zadaniach prognozowania i klasyfikacji.
Wyodrębnianie cech kalendarzowychCykliczne kodowanie zmiennych czasowychWskaźniki sezonowości i świątProjektowanie cech aktualności i stażuZapobieganie przeciekowi czasowemuLekcja 3Strategie imputacji dla pól numerycznych (mediana, KNN, oparte na modelu) i kategorycznych (moda, 'nieznane')Porównaj strategie imputacji numerycznej i kategorycznej, w tym medianę, KNN, opartą na modelu, modę i jawne kategorie 'nieznane', z diagnostyką do oceny biasu, wariancji i solidności uzupełnionego zbioru danych.
Mechanizmy i wzorce brakówProste metody imputacji numerycznejImputacja KNN i oparta na modeluModa kategoryczna i kosze 'nieznane'Używanie flag wskaźników brakówLekcja 4Tworzenie zmiennej celu dla wybranego celu predykcji (binarny zwrot, ciągły przychód, etykieta spóźnionej dostawy)Zdefiniuj i skonstruuj zmienne celu dla kluczowych predykcji biznesowych, w tym flagi binarne zwrotów, ciągły przychód i etykiety spóźnionych dostaw, zapewniając jasne definicje i zgodność z metrykami ewaluacji.
Wybór celu predykcjiDefiniowanie etykiet zwrotów i churnuCele regresji przychodu i marżyEtykiety naruszeń dostaw i SLAZgodność celów z metrykamiLekcja 5Techniki kodowania: one-hot, target encoding, frequency encoding, embeddingi dla cech wysokiej kardynalnościPoznaj metody kodowania zmiennych kategorycznych, od prostego one-hot po target, frequency i oparte na embeddingach, z wskazówkami dotyczącymi zapobiegania przeciekowi, regularyzacji i obsługi cech wysokiej kardynalności.
Kiedy używać one-hot encodingTarget encoding z kontrolą przeciekuFrequency i count encodingHashing i obsługa rzadkich kategoriiWyuczone embeddingi dla kategoriiLekcja 6Wykrywanie i obsługa skrajnych wartości dla ceny, ilości, delivery_time_days i przychoduNaucz się wykrywać, diagnozować i leczyć skrajne wartości w cenie, ilości, czasie dostawy i przychodzie za pomocą reguł statystycznych i logiki biznesowej, minimalizując utratę informacji przy ochronie modeli przed niestabilnością.
Reguły wykrywania skrajnych wartości jednowymiarowychSkrajne wartości wielowymiarowe i kontekstoweOgraniczanie, przycinanie i winsorizacjaFlagi skrajnych wartości oparte na regułach biznesowychWpływ skrajnych wartości na trening modeluLekcja 7Agregacje i cechy na poziomie klienta: historyczny wskaźnik zwrotów, średnia wartość zamówienia, częstotliwość, czas od ostatniego zamówieniaBuduj agregacje na poziomie klienta, takie jak historyczny wskaźnik zwrotów, średnia wartość zamówienia, częstotliwość zakupów i aktualność, aby uchwycić zachowanie klienta w czasie i poprawić segmentację oraz wydajność predykcyjną.
Projektowanie agregacji na poziomie klientaHistoryczne wskaźniki zwrotów i skargŚrednia wartość zamówienia i rozmiar koszykaCzęstotliwość zakupów i aktualnośćZamienniki wartości klienta w czasieLekcja 8Cechy promocji i cen: effective_unit_price, discount_pct, flaga discount_appliedStwórz cechy promocji i cen, takie jak efektywna cena jednostkowa, procent zniżki i flagi zniżek, aby uchwycić intensywność promocji, wpływ na marżę i wrażliwość klienta na zmiany cen w czasie.
Obliczanie efektywnej ceny jednostkowejProcent zniżki i głębokośćFlagi binarne i wielopoziomowe promoNakładające się promocjeCechy proxy elastyczności cenowejLekcja 9Strategie podziału train/test dla danych szeregów czasowych/zamówień (podział czasowy, stratyfikowany według celu, holdout klienta)Projektuj strategie podziału train i test dla danych transakcyjnych uporządkowanych czasowo, używając podziałów czasowych, stratyfikacji według celu i schematów holdout klienta, aby uzyskać realistyczne i bezstronne szacunki wydajności.
Pułapki losowych podziałów w danych czasowychPodziały czasowe i okna przesuwneStratyfikowane podziały dla niezbalansowanych celówHoldout na poziomie klienta i sklepuWalidacja krzyżowa dla danych temporalnychLekcja 10Cechy geograficzne i logistyczne: metryki na poziomie kraju, strefy wysyłki, typowa dystrybucja delivery_timeProjektuj cechy geograficzne i logistyczne za pomocą metryk krajowych, stref wysyłki i dystrybucji czasu dostawy, aby uchwycić ograniczenia operacyjne, zachowanie regionalne i zmienność poziomu usług w modelach predykcyjnych.
Agregacje na poziomie kraju i regionuDefiniowanie stref i tras wysyłkiCechy dystrybucji czasu dostawyWskaźniki odległości i transgranicznychCechy poziomu usług i SLALekcja 11Standaryzacja i czyszczenie zmiennych kategorycznych: product_category, country, marketing_channel, device_typeStandaryzuj i czyść zmienne kategoryczne, takie jak kategoria produktu, kraj, kanał marketingowy i typ urządzenia, normalizując etykiety, łącząc rzadkie poziomy i wymuszając spójne taksonomie w zbiorach danych.
Wykrywanie niespójnych etykiet kategoriiNormalizacja stringów i mapowanieŁączenie rzadkich i nieczystych kategoriiUtrzymywanie taksonomii kategoriiDokumentowanie czyszczenia kategorycznego