Lección 1Manejo de metadatos de canal (patrones de tokens específicos del canal, codificación de metadatos)Comprende cómo procesar metadatos de canal como chat, email y registros telefónicos. Cubrimos patrones de tokens específicos del canal, estrategias de codificación y cómo combinar metadatos con texto para un modelado más rico.
Catálogo de canales de soporte y camposPatrones de tokens específicos del canalCodificaciones one-hot y embeddingCombinación de características de texto y metadatosManejo de metadatos de canal faltantesLección 2Manejo de emojis, emoticonos y tokens no estándar y mapeo a señales de sentimientoEstudia cómo normalizar emojis, emoticonos y otros tokens no estándar preservando el sentimiento. Discutimos estrategias de mapeo, léxicos y cómo integrar estas señales en modelos downstream de sentimiento e intención.
Catálogo de uso de emojis y emoticonosManejo y normalización de UnicodeMapeo de tokens a puntuaciones de sentimientoConstrucción de léxicos personalizados de emojisIntegración de señales en modelosLección 3Estrategias de puntuación, contracciones y tokenización para texto de soporte en inglésExamina puntuación, contracciones y estrategias de tokenización para texto de soporte en inglés. Comparamos tokenizadores basados en reglas y bibliotecas, manejamos casos límite y alineamos la tokenización con requisitos de modelos downstream.
Rol de la puntuación en tickets de soporteExpansión y normalización de contraccionesTokenizadores basados en reglas vs estadísticosManejo de URLs y emojis en tokensTokenización para modelos transformerLección 4Stemming vs lematización: algoritmos, bibliotecas y cuándo aplicar cada unoCompara enfoques de stemming y lematización, incluyendo algoritmos y bibliotecas. Aprenderás cuándo aplicar cada método en flujos de trabajo de tickets de soporte y cómo afectan el tamaño del vocabulario y el comportamiento del modelo.
Stemmers basados en reglas y algorítmicosLematizadores basados en diccionarioElección de bibliotecas y rendimientoImpacto en vocabulario y dispersiónSelección de método guiada por tareasLección 5Manejo de errores ortográficos, abreviaturas y taquigrafía específica del dominio (corrección ortográfica, diccionarios de búsqueda)Explora métodos para corregir ortografía, expandir abreviaturas y normalizar taquigrafía de dominio en tickets. Combinarás corrección ortográfica, diccionarios de búsqueda y reglas personalizadas evitando cambios perjudiciales en entidades y códigos clave.
Tipos comunes de errores en texto de soporteCorrección con diccionario y distancia de ediciónLéxicos personalizados de abreviaturas de dominioEstrategias de corrección conscientes del contextoProtección de entidades y códigosLección 6Intercambios en la eliminación de stopwords y listas de stopwords configurables para dominios de tickets de soporteExamina los intercambios de la eliminación de stopwords en dominios de tickets de soporte. Diseñarás listas de stopwords configurables, evaluarás su impacto en modelos y manejarás palabras funcionales específicas del dominio que pueden llevar intención sutil.
Listas de stopwords estándar vs de dominioImpacto en características bag-of-wordsEfecto en embeddings y transformersConjuntos de stopwords configurables y en capasEvaluación de eliminación con ablaciónLección 7Fundamentos de normalización de texto: minúsculas, normalización Unicode, manejo de espacios en blanco y saltos de líneaCubre pasos fundamentales de normalización de texto como minúsculas, normalización Unicode y limpieza de espacios en blanco. Discutimos orden de operaciones, peculiaridades específicas del idioma y preservación de indicios de formato importantes.
Reglas de minúsculas y preservación de mayúsculasFormas de normalización UnicodeManejo de acentos y símbolos especialesLimpieza de espacios en blanco y saltos de líneaOrden de operaciones de normalizaciónLección 8Estrategias de división de datos: divisiones basadas en tiempo, muestreo estratificado por tema/sentimiento y consideraciones de validación cruzada anidadaEstudia estrategias de división de datos adaptadas a datos temporales y etiquetados de tickets. Comparamos divisiones basadas en tiempo, muestreo estratificado por tema o sentimiento y validación cruzada anidada para evaluación robusta de modelos.
Holdout, k-fold y divisiones temporalesEstratificación por tema y sentimientoPrevención de fugas temporales de datosFlujos de validación cruzada anidadaAlineación de divisiones con objetivos empresarialesLección 9Manejo de URLs, direcciones email, fragmentos de código e identificadores en texto (máscara vs preservación)Aprende estrategias para manejar URLs, emails, fragmentos de código e identificadores en texto. Comparamos enmascaramiento, normalización y opciones de preservación, enfocándonos en privacidad, desduplicación e implicaciones de rendimiento del modelo.
Detección de patrones de URLs y emailReglas de enmascaramiento vs normalizaciónRepresentación segura de fragmentos de códigoManejo de identificadores de tickets y usuariosConsideraciones de privacidad y fugasLección 10Comprensión de esquema CSV y tipos de datos (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Aprende a interpretar esquemas CSV para conjuntos de datos de tickets y asignar tipos de datos correctos. Cubrimos análisis de identificadores, marcas de tiempo, booleanos y campos de texto, más verificaciones de validación que previenen errores downstream sutiles.
Inspección de cabeceras y filas de muestraAsignación robusta de tipos de datos de columnasValidación de marcas de tiempo e IDsDetección de tipos malformados o mixtosValidación de esquema en pipelinesLección 11Técnicas para detectar y cuantificar valores faltantes y ruido en etiquetas (patrones de faltantes, verificaciones de consistencia de etiquetas, métricas inter-anotador)Aprende a detectar valores faltantes y etiquetas ruidosas en conjuntos de datos de tickets de soporte. Cubrimos patrones de faltantes, verificaciones de consistencia de etiquetas y métricas de acuerdo inter-anotador para cuantificar calidad de etiquetas y guiar decisiones de limpieza.
Tipos de faltantes en conjuntos de datos de ticketsVisualización de patrones de faltantesDetección de etiquetas inconsistentesMétricas de acuerdo inter-anotadorHeurísticas para marcar ruido en etiquetasLección 12Creación de pipelines reproducibles y versionado de conjuntos de datos limpios (contratos de datos, hashing)Aprende a construir pipelines de preprocesamiento reproducibles y conjuntos de datos limpios versionados. Cubrimos diseño modular de pipelines, gestión de configuración, hashing y contratos de datos que mantienen alineados modelos, código y datos a lo largo del tiempo.
Diseño de pasos modulares de preprocesamientoSeguimiento de configuración y parámetrosHashing de conjuntos de datos crudos y procesadosContratos de datos y garantías de esquemaRegistros y auditorías de cambiosLección 13Análisis de fechas/horas y manejo de zonas horarias, derivación de características temporales (parte del día, día de la semana, reciente)Comprende cómo analizar campos de fecha y hora heterogéneos, manejar zonas horarias y derivar características temporales. Nos enfocamos en análisis robusto, normalización a tiempo canónico y características diseñadas como reciente y estacionalidad.
Análisis de formatos de fecha heterogéneosEstrategias de normalización de zonas horariasManejo de marcas de tiempo faltantes o inválidasDerivación de características de reciente y edadParte del día, día de la semana y estacionalidadLección 14Imputación y tratamiento de columnas no textuales (resolved, resolution_time_hours, channel) para modeladoExplora imputación y preprocesamiento para columnas no textuales como estado de resolución, tiempo de resolución y canal. Discutimos estrategias de codificación, riesgos de fugas y cómo alinear estas características con texto para modelado.
Perfilado de columnas no textuales de ticketsImputación para duraciones numéricasCodificación de campos de estado categóricosEvitar fugas de objetivo en característicasModelado conjunto con señales de texto