Aula 1Tratamento de metadados de canal (padrões de tokens específicos de canal, codificação de metadados)Entenda como processar metadados de canal como chat, e-mail e logs de telefone. Abordamos padrões de tokens específicos de canal, estratégias de codificação e como combinar metadados com texto para modelagem mais rica.
Catálogo de canais de suporte e camposPadrões de tokens específicos de canalCodificações one-hot e embeddingCombinação de recursos de texto e metadadosTratamento de metadados de canal ausentesAula 2Tratamento e mapeamento de emojis, emoticons e tokens não padrão para sinais de sentimentoEstude como normalizar emojis, emoticons e outros tokens não padrão preservando sentimento. Discutimos estratégias de mapeamento, léxicos e como integrar esses sinais em modelos downstream de sentimento e intenção.
Catálogo de uso de emojis e emoticonsTratamento e normalização UnicodeMapeamento de tokens para pontuações de sentimentoConstrução de léxicos personalizados de emojisIntegração de sinais em modelosAula 3Pontuação, contrações e estratégias de tokenização para texto de suporte em inglêsExamine pontuação, contrações e estratégias de tokenização para texto de suporte em inglês. Comparamos tokenizadores baseados em regras e bibliotecas, tratamos casos extremos e alinhamos tokenização com requisitos de modelos downstream.
Papel da pontuação em tickets de suporteExpansão e normalização de contraçõesTokenizadores baseados em regras vs estatísticosTratamento de URLs e emojis em tokensTokenização para modelos transformerAula 4Stemming vs lematização: algoritmos, bibliotecas e quando aplicar cada umCompare abordagens de stemming e lematização, incluindo algoritmos e bibliotecas. Você aprenderá quando aplicar cada método em fluxos de trabalho de tickets de suporte e como eles afetam o tamanho do vocabulário e o comportamento do modelo.
Stemmers baseados em regras e algorítmicosLematizadores baseados em dicionárioEscolhas de bibliotecas e desempenhoImpacto no vocabulário e esparsidadeSeleção de método orientada por tarefaAula 5Tratamento de erros de digitação, abreviações e atalhos específicos de domínio (correção ortográfica, dicionários de consulta)Explore métodos para corrigir ortografia, expandir abreviações e normalizar atalhos de domínio em tickets. Você combinará correção ortográfica, dicionários de consulta e regras personalizadas evitando mudanças prejudiciais em entidades e códigos chave.
Tipos comuns de erros em texto de suporteCorreção por dicionário e distância de ediçãoLéxicos personalizados de abreviações de domínioEstratégias de correção contextuaisProteção de entidades e códigosAula 6Trade-offs da remoção de stopwords e listas de stopwords configuráveis para domínios de tickets de suporteExamine os trade-offs da remoção de stopwords em domínios de tickets de suporte. Você projetará listas de stopwords configuráveis, avaliará seu impacto em modelos e tratará palavras funcionais específicas de domínio que podem carregar intenção sutil.
Listas de stopwords padrão vs de domínioImpacto em features bag-of-wordsEfeito em embeddings e transformersConjuntos de stopwords configuráveis e em camadasAvaliação de remoção com ablaçãoAula 7Fundamentos de normalização de texto: minúsculas, normalização Unicode, tratamento de espaços em branco e quebras de linhaCubra etapas centrais de normalização de texto como conversão para minúsculas, normalização Unicode e limpeza de espaços em branco. Discutimos ordem das operações, peculiaridades específicas de idioma e preservação de pistas importantes de formatação.
Conversão para minúsculas e regras de preservação de maiúsculasFormas de normalização UnicodeTratamento de acentos e símbolos especiaisLimpeza de espaços em branco e quebras de linhaOrdem das operações de normalizaçãoAula 8Estratégias de divisão de dados: divisões baseadas em tempo, amostragem estratificada por tópico/sentimento e considerações de validação cruzada aninhadaEstude estratégias de divisão de dados adaptadas a dados temporais e rotulados de tickets. Comparamos divisões baseadas em tempo, amostragem estratificada por tópico ou sentimento e validação cruzada aninhada para avaliação robusta de modelos.
Holdout, k-fold e divisões temporaisEstratificação por tópico e sentimentoPrevenção de vazamento temporal de dadosFluxos de trabalho de validação cruzada aninhadaAlinhamento de divisões com metas de negócioAula 9Tratamento de URLs, endereços de e-mail, trechos de código e identificadores em texto (mascaramento vs preservação)Aprenda estratégias para tratar URLs, e-mails, trechos de código e identificadores em texto. Comparamos escolhas de mascaramento, normalização e preservação, focando em privacidade, desduplicação e implicações de desempenho do modelo.
Detecção de padrões de URLs e e-mailRegras de mascaramento versus normalizaçãoRepresentação segura de trechos de códigoTratamento de identificadores de tickets e usuáriosConsiderações de privacidade e vazamentoAula 10Compreendendo esquema CSV e tipos de dados (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Aprenda a interpretar esquemas CSV para conjuntos de dados de tickets e atribuir tipos de dados corretos. Cobrimos parsing de identificadores, timestamps, booleanos e campos de texto, além de verificações de validação que previnem erros downstream sutis.
Inspeção de cabeçalhos e linhas de amostraAtribuição robusta de tipos de dados de colunasValidação de timestamps e IDsDetecção de tipos malformados ou mistosValidação de esquema em pipelinesAula 11Técnicas para detectar e quantificar valores ausentes e ruído de rótulos (padrões de ausência, verificações de consistência de rótulos, métricas inter-anotador)Aprenda a detectar valores ausentes e rótulos ruidosos em conjuntos de dados de tickets de suporte. Cobrimos padrões de ausência, verificações de consistência de rótulos e métricas de concordância inter-anotador para quantificar qualidade de rótulos e guiar decisões de limpeza.
Tipos de ausência em conjuntos de dados de ticketsVisualização de padrões de ausênciaDetecção de rótulos inconsistentesMétricas de concordância inter-anotadorHeurísticas para sinalizar ruído de rótulosAula 12Criando pipelines reproduzíveis e versionamento de conjuntos de dados limpos (contratos de dados, hashing)Aprenda a construir pipelines de pré-processamento reproduzíveis e conjuntos de dados limpos versionados. Cobrimos design modular de pipeline, gerenciamento de configuração, hashing e contratos de dados que mantêm modelos, código e dados alinhados ao longo do tempo.
Projetando etapas modulares de pré-processamentoRastreamento de configuração e parâmetrosHashing de conjuntos de dados brutos e processadosContratos de dados e garantias de esquemaLogs e trilhas de auditoria para mudançasAula 13Parsing de data/hora e tratamento de fuso horário, derivando features temporais (período do dia, dia da semana, recência)Entenda como fazer parsing de campos de data e hora heterogêneos, tratar fusos horários e derivar features temporais. Focamos em parsing robusto, normalização para tempo canônico e features projetadas como recência e sazonalidade.
Parsing de formatos de data heterogêneosEstratégias de normalização de fuso horárioTratamento de timestamps ausentes ou inválidosDerivação de features de recência e idadePeríodo do dia, dia da semana e sazonalidadeAula 14Imputação e tratamento de colunas não-textuais (resolved, resolution_time_hours, channel) para modelagemExplore imputação e pré-processamento para colunas não-textuais como status de resolução, tempo de resolução e canal. Discutimos estratégias de codificação, riscos de vazamento e como alinhar essas features com texto para modelagem.
Perfilamento de colunas de tickets não-textuaisImputação para durações numéricasCodificação de campos de status categóricosEvitando vazamento de alvo em featuresModelagem conjunta com sinais de texto