Bài học 1Tỷ lệ đặc trưng và biến đổi: biến đổi log cho doanh thu/số lượng lệch, tỷ lệ mạnh mẽÁp dụng tỷ lệ và biến đổi để ổn định phương sai và giảm lệch trong doanh thu và số lượng, sử dụng biến đổi log, tỷ lệ mạnh mẽ và biến đổi lũy thừa trong khi bảo tồn khả năng giải thích khi cần.
Diagnosing skewness and heavy tailsLog and power transformationsStandard, min-max, and robust scalingScaling pipelines with sklearnInverse transforms for interpretationBài học 2Kỹ thuật đặc trưng ngày giờ: ngày trong tuần, giờ, mùa vụ, đặc trưng độ mới và thời gian gắn bó từ order_date và lịch sử khách hàngKỹ thuật đặc trưng dựa trên thời gian từ ngày đặt hàng và lịch sử khách hàng, bao gồm ngày trong tuần, giờ, mùa vụ, độ mới và thời gian gắn bó, trong khi tôn trọng thứ tự thời gian để tránh rò rỉ trong dự báo và phân loại.
Extracting calendar-based featuresCyclic encoding of time variablesSeasonality and holiday indicatorsRecency and tenure feature designTime-aware leakage preventionBài học 3Chiến lược điền giá trị thiếu cho trường số (trung vị, KNN, dựa trên mô hình) và phân loại (mode, 'unknown')So sánh chiến lược điền giá trị thiếu cho trường số (trung vị, KNN, dựa trên mô hình) và phân loại (mode, 'unknown'), với chẩn đoán đánh giá thiên lệch, phương sai và độ mạnh mẽ của tập dữ liệu hoàn chỉnh.
Missingness mechanisms and patternsSimple numeric imputation methodsKNN and model-based imputationCategorical mode and "unknown" binsUsing missingness indicator flagsBài học 4Tạo biến mục tiêu cho dự đoán đã chọn (trả hàng nhị phân, doanh thu liên tục, nhãn giao hàng muộn)Xác định và xây dựng biến mục tiêu cho dự đoán kinh doanh chính, bao gồm cờ trả hàng nhị phân, doanh thu liên tục và nhãn giao hàng muộn, đảm bảo định nghĩa rõ ràng và phù hợp với chỉ số đánh giá.
Choosing the prediction objectiveDefining return and churn labelsRevenue and margin regression targetsLate delivery and SLA breach labelsAligning targets with metricsBài học 5Kỹ thuật mã hóa: one-hot, target encoding, frequency encoding, embeddings cho đặc trưng cardinal caoKhám phá phương pháp mã hóa cho biến phân loại, từ one-hot đơn giản đến target, frequency và mã hóa dựa trên embedding, với hướng dẫn ngăn ngừa rò rỉ, regularization và xử lý đặc trưng cardinal cao.
When to use one-hot encodingTarget encoding with leakage controlFrequency and count encodingsHashing and rare category handlingLearned embeddings for categoriesBài học 6Phát hiện và xử lý ngoại lai cho giá, số lượng, delivery_time_days và doanh thuHọc phát hiện, chẩn đoán và xử lý ngoại lai trong giá, số lượng, thời gian giao hàng và doanh thu sử dụng quy tắc thống kê và logic kinh doanh, giảm thiểu mất thông tin trong khi bảo vệ mô hình hạ nguồn khỏi không ổn định.
Univariate outlier detection rulesMultivariate and contextual outliersCapping, trimming, and winsorizationBusiness-rule based outlier flagsImpact of outliers on model trainingBài học 7Tổng hợp và đặc trưng cấp khách hàng: tỷ lệ trả hàng lịch sử, giá trị đơn hàng trung bình, tần suất, thời gian kể từ đơn hàng cuốiXây dựng tổng hợp cấp khách hàng như tỷ lệ trả hàng lịch sử, giá trị đơn hàng trung bình, tần suất và độ mới để nắm bắt hành vi trọn đời khách hàng và cải thiện phân đoạn và hiệu suất dự đoán.
Customer-level aggregation designHistorical return and complaint ratesAverage order value and basket sizePurchase frequency and recencyCustomer lifetime value proxiesBài học 8Đặc trưng khuyến mãi và giá: effective_unit_price, discount_pct, cờ discount_appliedTạo đặc trưng khuyến mãi và giá như giá đơn vị hiệu quả, phần trăm giảm giá và cờ áp dụng giảm giá để nắm bắt cường độ khuyến mãi, tác động biên lợi nhuận và độ nhạy giá của khách hàng theo thời gian.
Computing effective unit priceDiscount percentage and depthBinary and multi-level promo flagsStacked and overlapping promotionsPrice elasticity proxy featuresBài học 9Chiến lược chia train/test cho dữ liệu chuỗi thời gian/đơn hàng (chia dựa trên thời gian, phân tầng theo mục tiêu, giữ lại khách hàng)Thiết kế chiến lược chia train/test cho dữ liệu chuỗi thời gian/đơn hàng, sử dụng chia dựa trên thời gian, phân tầng theo mục tiêu và giữ lại khách hàng để có ước lượng hiệu suất thực tế và không thiên lệch.
Pitfalls of random splits in time dataTime-based and rolling window splitsStratified splits for imbalanced targetsCustomer and store level holdoutsCross-validation for temporal dataBài học 10Đặc trưng địa lý và logistics: chỉ số cấp quốc gia, vùng vận chuyển, phân phối delivery_time điển hìnhThiết kế đặc trưng địa lý và logistics sử dụng chỉ số cấp quốc gia, vùng vận chuyển và phân phối thời gian giao hàng để nắm bắt ràng buộc hoạt động, hành vi khu vực và biến đổi cấp dịch vụ trong mô hình dự đoán.
Country and region level aggregationsDefining shipping zones and lanesDelivery time distribution featuresDistance and cross-border indicatorsService level and SLA featuresBài học 11Chuẩn hóa và làm sạch biến phân loại: product_category, country, marketing_channel, device_typeChuẩn hóa và làm sạch biến phân loại như product_category, country, marketing_channel, device_type bằng cách chuẩn hóa nhãn, hợp nhất cấp hiếm và thực thi phân loại nhất quán qua tập dữ liệu.
Detecting inconsistent category labelsString normalization and mappingMerging rare and noisy categoriesMaintaining category taxonomiesDocumenting categorical cleaning