Aula 1Escalonamento e transformação de features: transformadas logarítmicas para receita/quantidade enviesada, escalonamento robustoAplique escalonamento e transformações para estabilizar variância e reduzir assimetria em receita e quantidade, usando transformadas logarítmicas, escalonamento robusto e transformadas de potência preservando interpretabilidade quando necessário.
Diagnosticando assimetria e caudas pesadasTransformações logarítmicas e de potênciaEscalonamento padrão, min-max e robustoPipelines de escalonamento com sklearnTransformadas inversas para interpretaçãoAula 2Engenharia de features de data/hora: dia da semana, hora, sazonalidade, features de recência e tempo de relacionamento de order_date e histórico do clienteEngenhe features baseadas em tempo de datas de pedidos e histórico do cliente, incluindo dia da semana, hora, sazonalidade, recência e tempo de relacionamento, respeitando a ordem temporal para evitar vazamento em tarefas de previsão e classificação.
Extrair features baseadas em calendárioCodificação cíclica de variáveis de tempoSazonalidade e indicadores de feriadosDesign de features de recência e tempo de relacionamentoPrevenção de vazamento consciente do tempoAula 3Estratégias de imputação para campos numéricos (mediana, KNN, baseado em modelo) e categóricos (moda, 'desconhecido')Compare estratégias de imputação numérica e categórica, incluindo mediana, KNN, baseado em modelo, moda e categorias explícitas 'desconhecido', com diagnósticos para avaliar viés, variância e robustez do conjunto de dados completado.
Mecanismos e padrões de ausênciaMétodos simples de imputação numéricaImputação KNN e baseada em modeloModa categórica e bins 'desconhecido'Usando flags indicadores de ausênciaAula 4Criando variável alvo para previsão escolhida (devolvido binário, receita contínua, rótulo de entrega atrasada)Defina e construa variáveis alvo para previsões principais de negócios, incluindo flags de devolução binárias, receita contínua e rótulos de entrega atrasada, garantindo definições claras e alinhamento com métricas de avaliação.
Escolhendo o objetivo de previsãoDefinindo rótulos de devolução e churnAlvos de regressão de receita e margemRótulos de entrega atrasada e violação de SLAAlinhando alvos com métricasAula 5Técnicas de codificação: one-hot, codificação alvo, codificação de frequência, embeddings para features de alta cardinalidadeExplore métodos de codificação para variáveis categóricas, de one-hot simples a codificações baseadas em alvo, frequência e embedding, com orientação sobre prevenção de vazamento, regularização e tratamento de features de alta cardinalidade.
Quando usar codificação one-hotCodificação alvo com controle de vazamentoCodificações de frequência e contagemHashing e tratamento de categorias rarasEmbeddings aprendidos para categoriasAula 6Detecção e tratamento de outliers para preço, quantidade, delivery_time_days e receitaAprenda a detectar, diagnosticar e tratar outliers em preço, quantidade, tempo de entrega e receita usando regras estatísticas e lógica de negócios, minimizando perda de informação enquanto protege modelos downstream de instabilidade.
Regras de detecção de outliers univariadosOutliers multivariados e contextuaisCapacidade, corte e winsorizaçãoFlags de outliers baseados em regras de negóciosImpacto de outliers no treinamento de modeloAula 7Agregações e features de nível cliente: taxa histórica de devolução, valor médio do pedido, frequência, tempo desde último pedidoConstrua agregações de nível cliente como taxa histórica de devolução, valor médio do pedido, frequência de compra e recência para capturar comportamento vitalício do cliente e melhorar segmentação e desempenho preditivo.
Design de agregação de nível clienteTaxas históricas de devolução e reclamaçãoValor médio do pedido e tamanho da cestaFrequência de compra e recênciaProxies de valor vitalício do clienteAula 8Features de promoção e precificação: effective_unit_price, discount_pct, flag discount_appliedCrie features de promoção e precificação como preço unitário efetivo, percentual de desconto e flags de desconto para capturar intensidade promocional, impacto na margem e sensibilidade do cliente a mudanças de preço ao longo do tempo.
Calculando preço unitário efetivoPercentual e profundidade de descontoFlags promocionais binários e multinívelPromoções empilhadas e sobrepostasFeatures proxy de elasticidade de preçoAula 9Estratégias de divisão train/test para dados de séries temporais/pedidos (divisão baseada em tempo, estratificada por alvo, holdout de cliente)Projete estratégias de divisão train e test para dados transacionais ordenados por tempo, usando divisões baseadas em tempo, estratificação por alvo e esquemas de holdout de cliente para obter estimativas de desempenho realistas e imparciais.
Armadilhas de divisões aleatórias em dados temporaisDivisões baseadas em tempo e janelas rolantesDivisões estratificadas para alvos desbalanceadosHoldouts de nível cliente e lojaValidação cruzada para dados temporaisAula 10Features geográficas e logísticas: métricas de nível país, zonas de envio, distribuição típica de delivery_timeProjete features geográficas e logísticas usando métricas de nível país, zonas de envio e distribuições de tempo de entrega para capturar restrições operacionais, comportamento regional e variabilidade de nível de serviço em modelos preditivos.
Agregações de nível país e regiãoDefinindo zonas e rotas de envioFeatures de distribuição de tempo de entregaIndicadores de distância e fronteira cruzadaFeatures de nível de serviço e SLAAula 11Padronizando e limpando variáveis categóricas: product_category, country, marketing_channel, device_typePadronize e limpe variáveis categóricas como categoria de produto, país, canal de marketing e tipo de dispositivo normalizando rótulos, mesclando níveis raros e aplicando taxonomias consistentes através de conjuntos de dados.
Detectando rótulos de categoria inconsistentesNormalização de strings e mapeamentoMesclando categorias raras e ruidosasMantendo taxonomias de categoriaDocumentando limpeza categórica