Lección 1Escalado y transformación de características: transformadas logarítmicas para ingresos/cantidad sesgados, escalado robustoAplica escalado y transformaciones para estabilizar varianza y reducir sesgo en ingresos y cantidad, usando transformadas logarítmicas, escalado robusto y transformadas de potencia preservando interpretabilidad donde sea necesario.
Diagnosticando sesgo y colas pesadasTransformadas logarítmicas y de potenciaEscalado estándar, min-max y robustoPipelines de escalado con sklearnTransformadas inversas para interpretaciónLección 2Ingeniería de características de fecha y hora: día de la semana, hora, estacionalidad, características de reciente y antigüedad desde order_date e historial de clienteIngeniería de características basadas en tiempo desde fechas de pedido e historial de cliente, incluyendo día de la semana, hora, estacionalidad, reciente y antigüedad, respetando orden temporal para evitar fugas en tareas de previsión y clasificación.
Extrayendo características basadas en calendarioCodificación cíclica de variables temporalesIndicadores de estacionalidad y festivosDiseño de características de reciente y antigüedadPrevención de fugas conscientes del tiempoLección 3Estrategias de imputación para campos numéricos (mediana, KNN, basadas en modelos) y categóricos (moda, 'desconocido')Compara estrategias de imputación numérica y categórica, incluyendo mediana, KNN, basadas en modelos, moda y categorías explícitas 'desconocido', con diagnósticos para evaluar sesgo, varianza y robustez del conjunto de datos completado.
Mecanismos y patrones de valores faltantesMétodos simples de imputación numéricaImputación KNN y basada en modelosModa categórica y bins 'desconocido'Usando indicadores de valores faltantesLección 4Creando variable objetivo para predicción elegida (devuelto binario, ingresos continuos, etiqueta de entrega tardía)Define y construye variables objetivo para predicciones empresariales clave, incluyendo banderas de devolución binarias, ingresos continuos y etiquetas de entrega tardía, asegurando definiciones claras y alineación con métricas de evaluación.
Elegiendo el objetivo de predicciónDefiniendo etiquetas de devolución y churnObjetivos de regresión de ingresos y margenEtiquetas de entrega tardía y brechas SLAAlineando objetivos con métricasLección 5Técnicas de codificación: one-hot, codificación objetivo, codificación frecuencia, embeddings para características de alta cardinalidadExplora métodos de codificación para variables categóricas, desde one-hot simple a codificación objetivo, frecuencia y basada en embeddings, con guía sobre prevención de fugas, regularización y manejo de características de alta cardinalidad.
Cuándo usar codificación one-hotCodificación objetivo con control de fugasCodificaciones de frecuencia y conteoHashing y manejo de categorías rarasEmbeddings aprendidos para categoríasLección 6Detección y manejo de valores atípicos para precio, cantidad, delivery_time_days e ingresosAprende a detectar, diagnosticar y tratar valores atípicos en precio, cantidad, tiempo de entrega e ingresos usando reglas estadísticas y lógica empresarial, minimizando pérdida de información mientras proteges modelos downstream de inestabilidad.
Reglas de detección univariante de atípicosAtípicos multivariantes y contextualesLímite superior, recorte y winsorizaciónMarcas de atípicos basadas en reglas empresarialesImpacto de atípicos en entrenamiento de modelosLección 7Agregaciones y características a nivel de cliente: tasa histórica de devoluciones, valor medio de pedido, frecuencia, tiempo desde último pedidoConstruye agregaciones a nivel de cliente como tasa histórica de devoluciones, valor medio de pedido, frecuencia de compra y reciente para capturar comportamiento de vida del cliente y mejorar segmentación y rendimiento predictivo.
Diseño de agregación a nivel de clienteTasas históricas de devoluciones y quejasValor medio de pedido y tamaño de cestaFrecuencia de compra y recienteProxy de valor de vida del clienteLección 8Características de promoción y precios: effective_unit_price, discount_pct, bandera discount_appliedCrea características de promoción y precios como precio unitario efectivo, porcentaje de descuento y banderas de descuento para capturar intensidad promocional, impacto en margen y sensibilidad del cliente a cambios de precio con el tiempo.
Calculando precio unitario efectivoPorcentaje y profundidad de descuentoBanderas promocionales binarias y multinivelPromociones apiladas y superpuestasCaracterísticas proxy de elasticidad de precioLección 9Estrategias de división train/test para datos de series temporales/pedidos (división basada en tiempo, estratificada por objetivo, holdout de cliente)Diseña estrategias de división train y test para datos transaccionales ordenados por tiempo, usando divisiones basadas en tiempo, estratificación por objetivo y esquemas de holdout de cliente para obtener estimaciones de rendimiento realistas e imparciales.
Errores de divisiones aleatorias en datos temporalesDivisiones basadas en tiempo y ventana rodanteDivisiones estratificadas para objetivos desequilibradosHoldouts a nivel de cliente y tiendaValidación cruzada para datos temporalesLección 10Características geográficas y logísticas: métricas a nivel de país, zonas de envío, distribución típica de delivery_timeDiseña características geográficas y logísticas usando métricas a nivel de país, zonas de envío y distribuciones de tiempo de entrega para capturar restricciones operativas, comportamiento regional y variabilidad de nivel de servicio en modelos predictivos.
Agregaciones a nivel de país y regiónDefiniendo zonas y carriles de envíoCaracterísticas de distribución de tiempo de entregaIndicadores de distancia y cruce de fronterasCaracterísticas de nivel de servicio y SLALección 11Estandarizando y limpiando variables categóricas: product_category, country, marketing_channel, device_typeEstandariza y limpia variables categóricas como categoría de producto, país, canal de marketing y tipo de dispositivo normalizando etiquetas, fusionando niveles raros y aplicando taxonomías consistentes en conjuntos de datos.
Detectando etiquetas de categorías inconsistentesNormalización de cadenas y mapeoFusionando categorías raras y ruidosasManteniendo taxonomías de categoríasDocumentando limpieza categórica