Lección 1Manejo de metadatos de canal (patrones de tokens específicos del canal, codificación de metadatos)Entiende cómo procesar metadatos de canal como chat, email y registros telefónicos. Cubrimos patrones de tokens específicos del canal, estrategias de codificación y cómo combinar metadatos con texto para modelado más rico.
Catálogo de canales de soporte y camposPatrones de tokens específicos del canalCodificaciones one-hot y embeddingCombinación de características de texto y metadatosManejo de metadatos de canal faltantesLección 2Manejo y mapeo de emojis, emoticonos y tokens no estándar a señales de sentimientoEstudia cómo normalizar emojis, emoticonos y otros tokens no estándar preservando el sentimiento. Discutimos estrategias de mapeo, léxicos y cómo integrar estas señales en modelos de sentimiento e intención.
Catálogo de uso de emojis y emoticonosManejo y normalización de UnicodeMapeo de tokens a puntuaciones de sentimientoConstrucción de léxicos personalizados de emojisIntegración de señales en modelosLección 3Estrategias de puntuación, contracciones y tokenización para texto de soporte en inglésExamina puntuación, contracciones y estrategias de tokenización para texto de soporte en inglés. Comparamos tokenizadores basados en reglas y bibliotecas, manejamos casos extremos y alineamos la tokenización con requisitos de modelos downstream.
Rol de la puntuación en tickets de soporteExpansión y normalización de contraccionesTokenizadores basados en reglas vs estadísticosManejo de URLs y emojis en tokensTokenización para modelos transformerLección 4Stemming vs lematización: algoritmos, bibliotecas y cuándo aplicar cada unoCompara enfoques de stemming y lematización, incluyendo algoritmos y bibliotecas. Aprenderás cuándo aplicar cada método en flujos de trabajo de tickets de soporte y cómo afectan el tamaño del vocabulario y el comportamiento del modelo.
Stemmers basados en reglas y algorítmicosLematizadores basados en diccionarioElección de bibliotecas y rendimientoImpacto en vocabulario y dispersiónSelección de método guiada por tareasLección 5Manejo de errores ortográficos, abreviaturas y jerga específica del dominio (corrección ortográfica, diccionarios de búsqueda)Explora métodos para corregir ortografía, expandir abreviaturas y normalizar jerga del dominio en tickets. Combinarás corrección ortográfica, diccionarios de búsqueda y reglas personalizadas evitando cambios dañinos en entidades y códigos clave.
Tipos comunes de errores en texto de soporteCorrección con diccionario y distancia de ediciónLéxicos personalizados de abreviaturas del dominioEstrategias de corrección conscientes del contextoProtección de entidades y códigosLección 6Tradeoffs de eliminación de stopwords y listas de stopwords configurables para dominios de tickets de soporteExamina los tradeoffs de eliminación de stopwords en dominios de tickets de soporte. Diseñarás listas de stopwords configurables, evaluarás su impacto en modelos y manejarás palabras funcionales específicas del dominio que pueden llevar intención sutil.
Listas de stopwords estándar vs del dominioImpacto en características bag-of-wordsEfecto en embeddings y transformersConjuntos de stopwords configurables y en capasEvaluación de eliminación con ablaciónLección 7Fundamentos de normalización de texto: minúsculas, normalización Unicode, manejo de espacios en blanco y saltos de líneaCubre pasos centrales de normalización de texto como minúsculas, normalización Unicode y limpieza de espacios en blanco. Discutimos orden de operaciones, advertencias específicas del idioma y preservación de pistas de formato importantes.
Reglas de minúsculas y preservación de mayúsculasFormas de normalización UnicodeManejo de acentos y símbolos especialesLimpieza de espacios en blanco y saltos de líneaOrden de operaciones de normalizaciónLección 8Estrategias de división de datos: divisiones basadas en tiempo, muestreo estratificado por tema/sentimiento y consideraciones de validación cruzada anidadaEstudia estrategias de división de datos adaptadas a datos temporales y etiquetados de tickets. Comparamos divisiones basadas en tiempo, muestreo estratificado por tema o sentimiento y validación cruzada anidada para evaluación robusta de modelos.
Holdout, k-fold y divisiones temporalesEstratificación por tema y sentimientoPrevención de fugas de datos temporalesFlujos de validación cruzada anidadaAlineación de divisiones con metas de negocioLección 9Manejo de URLs, direcciones de email, fragmentos de código e identificadores en texto (máscara vs preservación)Aprende estrategias para manejar URLs, emails, fragmentos de código e identificadores en texto. Comparamos máscara, normalización y preservación, enfocándonos en privacidad, desduplicación e implicaciones de rendimiento del modelo.
Detección de patrones de URLs y emailReglas de máscara vs normalizaciónRepresentación segura de fragmentos de códigoManejo de identificadores de tickets y usuariosConsideraciones de privacidad y fugasLección 10Comprensión de esquema CSV y tipos de datos (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Aprende a interpretar esquemas CSV para datasets de tickets y asignar tipos de datos correctos. Cubrimos análisis de identificadores, marcas de tiempo, booleanos y campos de texto, más verificaciones de validación que previenen errores downstream sutiles.
Inspección de encabezados y filas de muestraAsignación robusta de tipos de datos de columnasValidación de marcas de tiempo e IDsDetección de tipos malformados o mixtosValidación de esquema en pipelinesLección 11Técnicas para detectar y cuantificar valores faltantes y ruido de etiquetas (patrones de faltantes, verificaciones de consistencia de etiquetas, métricas inter-anotador)Aprende a detectar valores faltantes y etiquetas ruidosas en datasets de tickets de soporte. Cubrimos patrones de faltantes, verificaciones de consistencia de etiquetas y métricas de acuerdo inter-anotador para cuantificar calidad de etiquetas y guiar decisiones de limpieza.
Tipos de faltantes en datasets de ticketsVisualización de patrones de faltantesDetección de etiquetas inconsistentesMétricas de acuerdo inter-anotadorHeurísticas para marcar ruido de etiquetasLección 12Creación de pipelines reproducibles y versionado de datasets limpios (contratos de datos, hashing)Aprende a construir pipelines de preprocesamiento reproducibles y datasets limpios versionados. Cubrimos diseño modular de pipelines, manejo de configuración, hashing y contratos de datos que mantienen alineados modelos, código y datos a lo largo del tiempo.
Diseño de pasos modulares de preprocesamientoSeguimiento de configuración y parámetrosHashing de datasets crudos y procesadosContratos de datos y garantías de esquemaRegistros y auditorías de cambiosLección 13Análisis de fechas/horas y manejo de zonas horarias, derivación de características temporales (parte del día, día de la semana, reciente)Entiende cómo analizar campos de fecha y hora heterogéneos, manejar zonas horarias y derivar características temporales. Nos enfocamos en análisis robusto, normalización a tiempo canónico y características diseñadas como reciente y estacionalidad.
Análisis de formatos de fecha heterogéneosEstrategias de normalización de zonas horariasManejo de marcas de tiempo faltantes o inválidasDerivación de características de reciente y edadParte del día, día de la semana y estacionalidadLección 14Imputación y tratamiento de columnas no textuales (resolved, resolution_time_hours, channel) para modeladoExplora imputación y preprocesamiento para columnas no textuales como estado de resolución, tiempo de resolución y canal. Discutimos estrategias de codificación, riesgos de fugas y cómo alinear estas características con texto para modelado.
Perfilado de columnas no textuales de ticketsImputación para duraciones numéricasCodificación de campos de estado categóricosEvitando fugas de objetivo en característicasModelado conjunto con señales de texto