Lección 1Manejo de metadatos de canal (patrones de tokens específicos del canal, codificación de metadatos)Entiende cómo procesar metadatos de canal como chat, email y logs de teléfono. Cubrimos patrones de tokens específicos del canal, estrategias de codificación y cómo combinar metadatos con texto para modelado más rico.
Catálogo de canales de soporte y camposPatrones de tokens específicos del canalCodificaciones one-hot y embeddingCombinación de características de texto y metadatosManejo de metadatos de canal faltantesLección 2Manejo y mapeo de emojis, emoticonos y tokens no estándar a señales de sentimientoEstudia cómo normalizar emojis, emoticonos y otros tokens no estándar preservando el sentimiento. Discutimos estrategias de mapeo, léxicos y cómo integrar estas señales en modelos de sentimiento e intención.
Catálogo de uso de emojis y emoticonosManejo y normalización de UnicodeMapeo de tokens a puntuaciones de sentimientoConstrucción de léxicos personalizados de emojisIntegración de señales en modelosLección 3Estrategias de puntuación, contracciones y tokenización para texto de soporte en inglésExamina puntuación, contracciones y estrategias de tokenización para texto de soporte en inglés. Comparamos tokenizadores basados en reglas y bibliotecas, manejamos casos extremos y alineamos la tokenización con requisitos de modelos downstream.
Rol de la puntuación en tickets de soporteExpansión y normalización de contraccionesTokenizadores basados en reglas vs estadísticosManejo de URLs y emojis en tokensTokenización para modelos transformerLección 4Stemming vs lematización: algoritmos, bibliotecas y cuándo aplicar cada unoCompara enfoques de stemming y lematización, incluyendo algoritmos y bibliotecas. Aprenderás cuándo aplicar cada método en flujos de tickets de soporte y cómo afectan el tamaño del vocabulario y el comportamiento del modelo.
Stemmers basados en reglas y algorítmicosLematizadores basados en diccionarioElección de bibliotecas y rendimientoImpacto en vocabulario y dispersiónSelección de método guiada por tareasLección 5Manejo de errores de ortografía, abreviaturas y jerga específica del dominio (corrección ortográfica, diccionarios de búsqueda)Explora métodos para corregir ortografía, expandir abreviaturas y normalizar jerga del dominio en tickets. Combinarás corrección ortográfica, diccionarios de búsqueda y reglas personalizadas evitando cambios dañinos en entidades y códigos clave.
Tipos comunes de errores en texto de soporteCorrección con diccionario y distancia de ediciónLéxicos personalizados de abreviaturas del dominioEstrategias de corrección conscientes del contextoProtección de entidades y códigosLección 6Tradeoffs de eliminación de stopwords y listas de stopwords configurables para dominios de tickets de soporteExamina los tradeoffs de eliminación de stopwords en dominios de tickets de soporte. Diseñarás listas de stopwords configurables, evaluarás su impacto en modelos y manejarás palabras funcionales específicas del dominio que pueden llevar intención sutil.
Listas de stopwords estándar vs del dominioImpacto en características bag-of-wordsEfecto en embeddings y transformersConjuntos de stopwords configurables y en capasEvaluación de eliminación con ablaciónLección 7Fundamentos de normalización de texto: minúsculas, normalización Unicode, manejo de espacios en blanco y saltos de líneaCubre pasos centrales de normalización de texto como minúsculas, normalización Unicode y limpieza de espacios en blanco. Discutimos orden de operaciones, peculiaridades específicas del idioma y preservación de pistas de formato importantes.
Reglas de minúsculas y preservación de mayúsculasFormas de normalización UnicodeManejo de acentos y símbolos especialesLimpieza de espacios en blanco y saltos de líneaOrden de operaciones de normalizaciónLección 8Estrategias de división de datos: divisiones basadas en tiempo, muestreo estratificado por tema/sentimiento y consideraciones de validación cruzada anidadaEstudia estrategias de división de datos adaptadas a datos temporales y etiquetados de tickets. Comparamos divisiones basadas en tiempo, muestreo estratificado por tema o sentimiento y validación cruzada anidada para evaluación robusta de modelos.
Holdout, k-fold y divisiones temporalesEstratificación por tema y sentimientoPrevención de fugas temporales de datosFlujos de validación cruzada anidadaAlineación de divisiones con objetivos de negocioLección 9Manejo de URLs, direcciones de email, fragmentos de código e identificadores en texto (máscara vs preservación)Aprende estrategias para manejar URLs, emails, fragmentos de código e identificadores en texto. Comparamos enmascaramiento, normalización y preservación, enfocándonos en privacidad, desduplicación e implicaciones de rendimiento del modelo.
Detección de patrones de URLs y emailReglas de máscara vs normalizaciónRepresentación segura de fragmentos de códigoManejo de identificadores de tickets y usuariosConsideraciones de privacidad y fugasLección 10Entendiendo esquema CSV y tipos de datos (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Aprende a interpretar esquemas CSV para datasets de tickets y asignar tipos de datos correctos. Cubrimos parsing de identificadores, timestamps, booleanos y campos de texto, más verificaciones de validación que previenen errores sutiles downstream.
Inspección de encabezados y filas de muestraAsignación robusta de tipos de datos de columnasValidación de timestamps e IDsDetección de tipos malformados o mixtosValidación de esquema en pipelinesLección 11Técnicas para detectar y cuantificar valores faltantes y ruido en etiquetas (patrones de faltantes, verificaciones de consistencia de etiquetas, métricas inter-anotador)Aprende a detectar valores faltantes y etiquetas ruidosas en datasets de tickets de soporte. Cubrimos patrones de faltantes, verificaciones de consistencia de etiquetas y métricas de acuerdo inter-anotador para cuantificar calidad de etiquetas y guiar decisiones de limpieza.
Tipos de faltantes en datasets de ticketsVisualización de patrones de faltantesDetección de etiquetas inconsistentesMétricas de acuerdo inter-anotadorHeurísticas para marcar ruido en etiquetasLección 12Creación de pipelines reproducibles y versionado de datasets limpios (contratos de datos, hashing)Aprende a construir pipelines de preprocesamiento reproducibles y datasets limpios versionados. Cubrimos diseño modular de pipelines, manejo de configuración, hashing y contratos de datos que mantienen alineados modelos, código y datos a lo largo del tiempo.
Diseño de pasos modulares de preprocesamientoSeguimiento de configuración y parámetrosHashing de datasets crudos y procesadosContratos de datos y garantías de esquemaRegistros y auditorías de cambiosLección 13Parsing de fecha/hora y manejo de zonas horarias, derivación de características temporales (parte del día, día de la semana, recencia)Entiende cómo parsear campos de fecha y hora heterogéneos, manejar zonas horarias y derivar características temporales. Nos enfocamos en parsing robusto, normalización a tiempo canónico y características engineered como recencia y estacionalidad.
Parsing de formatos de fecha heterogéneosEstrategias de normalización de zonas horariasManejo de timestamps faltantes o inválidosDerivación de características de recencia y edadParte del día, día de la semana y estacionalidadLección 14Imputación y tratamiento de columnas no textuales (resolved, resolution_time_hours, channel) para modeladoExplora imputación y preprocesamiento para columnas no textuales como estado de resolución, tiempo de resolución y canal. Discutimos estrategias de codificación, riesgos de fugas y cómo alinear estas características con texto para modelado.
Perfilado de columnas no textuales de ticketsImputación para duraciones numéricasCodificación de campos de estado categóricosEvitando fugas de target en característicasModelado conjunto con señales de texto