Lección 1Escalado y transformación de características: transformadas logarítmicas para ingresos/cantidad sesgados, escalado robustoAplica escalado y transformaciones para estabilizar varianza y reducir sesgo en ingresos y cantidad, usando transformadas logarítmicas, escalado robusto y transformadas de potencia preservando interpretabilidad donde sea necesario.
Diagnosticar sesgo y colas pesadasTransformadas logarítmicas y de potenciaEscalado estándar, min-max y robustoPipelines de escalado con sklearnTransformadas inversas para interpretaciónLección 2Ingeniería de características de fecha y hora: día de semana, hora, estacionalidad, características de reciente y antigüedad desde order_date e historial de clienteIngeniería de características basadas en tiempo desde fechas de pedidos e historial de cliente, incluyendo día de semana, hora, estacionalidad, reciente y antigüedad, respetando orden temporal para evitar fugas en tareas de pronóstico y clasificación.
Extraer características basadas en calendarioCodificación cíclica de variables de tiempoIndicadores de estacionalidad y festivosDiseño de características de reciente y antigüedadPrevención de fugas conscientes del tiempoLección 3Estrategias de imputación para campos numéricos (mediana, KNN, basadas en modelo) y categóricos (moda, 'desconocido')Compara estrategias de imputación numérica y categórica, incluyendo mediana, KNN, basadas en modelo, moda y categorías explícitas 'desconocido', con diagnósticos para evaluar sesgo, varianza y robustez del conjunto completado.
Mecanismos y patrones de faltantesMétodos simples de imputación numéricaImputación KNN y basada en modeloModa categórica y bins 'desconocido'Usar banderas indicadoras de faltantesLección 4Crear variable objetivo para predicción elegida (devuelto binario, ingresos continuos, etiqueta de entrega tardía)Define y construye variables objetivo para predicciones clave de negocio, incluyendo banderas de devolución binarias, ingresos continuos y etiquetas de entrega tardía, asegurando definiciones claras y alineación con métricas de evaluación.
Elegir el objetivo de predicciónDefinir etiquetas de devolución y churnObjetivos de regresión de ingresos y margenEtiquetas de entrega tardía y violación de SLAAlinear objetivos con métricasLección 5Técnicas de codificación: one-hot, codificación objetivo, codificación de frecuencia, embeddings para características de alta cardinalidadExplora métodos de codificación para variables categóricas, desde one-hot simple hasta codificación objetivo, frecuencia y basada en embeddings, con guía sobre prevención de fugas, regularización y manejo de alta cardinalidad.
Cuándo usar codificación one-hotCodificación objetivo con control de fugasCodificaciones de frecuencia y conteoHashing y manejo de categorías rarasEmbeddings aprendidos para categoríasLección 6Detección y manejo de valores atípicos para precio, cantidad, delivery_time_days e ingresosAprende a detectar, diagnosticar y tratar valores atípicos en precio, cantidad, tiempo de entrega e ingresos usando reglas estadísticas y lógica de negocio, minimizando pérdida de información mientras proteges modelos downstream de inestabilidad.
Reglas de detección univariada de atípicosAtípicos multivariados y contextualesLímite superior, recorte y winsorizaciónBanderas de atípicos basadas en reglas de negocioImpacto de atípicos en entrenamiento de modelosLección 7Agregaciones y características a nivel de cliente: tasa histórica de devoluciones, valor promedio de pedido, frecuencia, tiempo desde último pedidoConstruye agregaciones a nivel de cliente como tasa histórica de devoluciones, valor promedio de pedido, frecuencia de compra y reciente para capturar comportamiento de vida del cliente y mejorar segmentación y rendimiento predictivo.
Diseño de agregación a nivel de clienteTasas históricas de devoluciones y quejasValor promedio de pedido y tamaño de canastaFrecuencia de compra y recienteProxies de valor de vida del clienteLección 8Características de promoción y precios: effective_unit_price, discount_pct, bandera de descuento aplicadoCrea características de promoción y precios como precio unitario efectivo, porcentaje de descuento y banderas de descuento para capturar intensidad promocional, impacto en margen y sensibilidad del cliente a cambios de precio con el tiempo.
Calcular precio unitario efectivoPorcentaje y profundidad de descuentoBanderas de promo binarias y multinivelPromociones apiladas y superpuestasCaracterísticas proxy de elasticidad de precioLección 9Estrategias de división train/test para datos de series temporales/pedidos (división basada en tiempo, estratificada por objetivo, holdout de cliente)Diseña estrategias de división train y test para datos transaccionales ordenados en tiempo, usando divisiones basadas en tiempo, estratificación por objetivo y esquemas de holdout de cliente para obtener estimaciones de rendimiento realistas e imparciales.
Errores de divisiones aleatorias en datos temporalesDivisiones basadas en tiempo y ventana rodanteDivisiones estratificadas para objetivos desbalanceadosHoldouts a nivel de cliente y tiendaValidación cruzada para datos temporalesLección 10Características geográficas y logísticas: métricas a nivel de país, zonas de envío, distribución típica de delivery_timeDiseña características geográficas y logísticas usando métricas a nivel de país, zonas de envío y distribuciones de tiempo de entrega para capturar restricciones operativas, comportamiento regional y variabilidad de nivel de servicio en modelos predictivos.
Agregaciones a nivel de país y regiónDefinir zonas y rutas de envíoCaracterísticas de distribución de tiempo de entregaIndicadores de distancia y cruce de fronterasCaracterísticas de nivel de servicio y SLALección 11Estandarizar y limpiar variables categóricas: product_category, country, marketing_channel, device_typeEstandariza y limpia variables categóricas como categoría de producto, país, canal de marketing y tipo de dispositivo normalizando etiquetas, fusionando niveles raros y aplicando taxonomías consistentes en conjuntos de datos.
Detectar etiquetas de categorías inconsistentesNormalización de strings y mapeoFusionar categorías raras y ruidosasMantener taxonomías de categoríasDocumentar limpieza categórica