Lección 1Escalado y transformación de features: transformadas logarítmicas para ingresos/cantidad sesgados, escalado robustoAplica escalado y transformaciones para estabilizar varianza y reducir sesgo en ingresos y cantidad, usando transformadas logarítmicas, escalado robusto y transformadas de potencia preservando interpretabilidad donde sea necesario.
Diagnosticando sesgo y colas pesadasTransformadas logarítmicas y de potenciaEscalado estándar, min-max y robustoPipelines de escalado con sklearnTransformadas inversas para interpretaciónLección 2Ingeniería de features de fecha/hora: día de semana, hora, estacionalidad, features de recencia y antigüedad desde order_date e historial de clienteIngeniería de features basadas en tiempo desde fechas de pedidos e historial de cliente, incluyendo día de semana, hora, estacionalidad, recencia y antigüedad, respetando orden temporal para evitar leakage en tareas de forecasting y clasificación.
Extrayendo features basadas en calendarioCodificación cíclica de variables temporalesIndicadores de estacionalidad y feriadosDiseño de features de recencia y antigüedadPrevención de leakage temporalLección 3Estrategias de imputación para campos numéricos (mediana, KNN, basadas en modelo) y categóricos (moda, 'desconocido')Compara estrategias de imputación numérica y categórica, incluyendo mediana, KNN, basadas en modelo, moda y categorías explícitas 'desconocido', con diagnósticos para evaluar sesgo, varianza y robustez del dataset completado.
Mecanismos y patrones de faltantesMétodos simples de imputación numéricaImputación KNN y basada en modeloModa categórica y bins 'desconocido'Usando flags indicadores de faltantesLección 4Creando variable target para predicción elegida (devuelto binario, ingresos continuos, label de entrega tardía)Define y construye variables target para predicciones clave de negocio, incluyendo flags binarios de devolución, ingresos continuos y labels de entrega tardía, asegurando definiciones claras y alineación con métricas de evaluación.
Elegiendo el objetivo de predicciónDefiniendo labels de devolución y churnTargets de regresión de ingresos y margenLabels de entrega tardía y breach de SLAAlineando targets con métricasLección 5Técnicas de codificación: one-hot, target encoding, frequency encoding, embeddings para features de alta cardinalidadExplora métodos de codificación para variables categóricas, desde one-hot simple hasta target, frequency y encodings basados en embeddings, con guía sobre prevención de leakage, regularización y manejo de features de alta cardinalidad.
Cuándo usar one-hot encodingTarget encoding con control de leakageEncodings de frecuencia y conteoHashing y manejo de categorías rarasEmbeddings aprendidos para categoríasLección 6Detección y manejo de outliers para precio, cantidad, delivery_time_days e ingresosAprende a detectar, diagnosticar y tratar outliers en precio, cantidad, tiempo de entrega e ingresos usando reglas estadísticas y lógica de negocio, minimizando pérdida de información mientras proteges modelos downstream de inestabilidad.
Reglas de detección univariada de outliersOutliers multivariados y contextualesCapping, trimming y winsorizaciónFlags de outliers basados en reglas de negocioImpacto de outliers en entrenamiento de modelosLección 7Agregaciones y features a nivel cliente: tasa histórica de devoluciones, valor promedio de pedido, frecuencia, tiempo desde último pedidoConstruye agregaciones a nivel cliente como tasa histórica de devoluciones, valor promedio de pedido, frecuencia de compra y recencia para capturar comportamiento de vida del cliente y mejorar segmentación y rendimiento predictivo.
Diseño de agregación a nivel clienteTasas históricas de devoluciones y quejasValor promedio de pedido y tamaño de canastaFrecuencia de compra y recenciaProxies de valor de vida del clienteLección 8Features de promoción y precios: effective_unit_price, discount_pct, flag discount_appliedCrea features de promoción y precios como precio unitario efectivo, porcentaje de descuento y flags de descuento para capturar intensidad promocional, impacto en margen y sensibilidad del cliente a cambios de precio a lo largo del tiempo.
Calculando precio unitario efectivoPorcentaje y profundidad de descuentoFlags binarios y multi-nivel de promoPromociones apiladas y superpuestasFeatures proxy de elasticidad de precioLección 9Estrategias de split train/test para datos time-series/pedidos (split basado en tiempo, estratificado por target, holdout de cliente)Diseña estrategias de split train y test para datos transaccionales ordenados en tiempo, usando splits basados en tiempo, estratificación por target y esquemas de holdout de cliente para obtener estimaciones de rendimiento realistas e imparciales.
Problemas de splits aleatorios en datos temporalesSplits basados en tiempo y ventanas rodantesSplits estratificados para targets desbalanceadosHoldouts a nivel cliente y tiendaCross-validation para datos temporalesLección 10Features geográficas y logísticas: métricas a nivel país, zonas de envío, distribución típica de delivery_timeDiseña features geográficas y logísticas usando métricas a nivel país, zonas de envío y distribuciones de tiempo de entrega para capturar restricciones operativas, comportamiento regional y variabilidad de service-level en modelos predictivos.
Agregaciones a nivel país y regiónDefiniendo zonas y lanes de envíoFeatures de distribución de tiempo de entregaIndicadores de distancia y cruce de fronterasFeatures de service level y SLALección 11Estandarizando y limpiando variables categóricas: product_category, country, marketing_channel, device_typeEstandariza y limpia variables categóricas como categoría de producto, país, canal de marketing y tipo de dispositivo normalizando labels, fusionando niveles raros y aplicando taxonomías consistentes across datasets.
Detectando labels de categorías inconsistentesNormalización de strings y mapeoFusionando categorías raras y ruidosasManteniendo taxonomías de categoríasDocumentando limpieza categórica