Leçon 1Gestion des métadonnées de canal (motifs de tokens spécifiques aux canaux, encodage des métadonnées)Comprenez comment traiter les métadonnées de canal telles que les chats, e-mails et journaux téléphoniques. Nous couvrons les motifs de tokens spécifiques aux canaux, les stratégies d'encodage et comment combiner les métadonnées avec le texte pour une modélisation plus riche.
Cataloging support channels and fieldsChannel-specific token patternsOne-hot and embedding encodingsCombining text and metadata featuresHandling missing channel metadataLeçon 2Gestion et cartographie des emojis, émoticônes et tokens non standards vers des signaux de sentimentÉtudiez comment normaliser les emojis, émoticônes et autres tokens non standards tout en préservant le sentiment. Nous discutons des stratégies de cartographie, des lexiques et de l'intégration de ces signaux dans les modèles de sentiment et d'intention en aval.
Cataloging emoji and emoticon usageUnicode handling and normalizationMapping tokens to sentiment scoresBuilding custom emoji lexiconsIntegrating signals into modelsLeçon 3Ponctuation, contractions et stratégies de tokenisation pour le texte de support en anglaisExaminez la ponctuation, les contractions et les stratégies de tokenisation pour le texte de support en anglais. Nous comparons les tokeniseurs basés sur des règles et les bibliothèques, gérons les cas limites et alignons la tokenisation avec les exigences des modèles en aval.
Role of punctuation in support ticketsExpanding and normalizing contractionsRule-based vs statistical tokenizersHandling URLs and emojis in tokensTokenization for transformer modelsLeçon 4Stemming vs lemmatisation : algorithmes, bibliothèques et quand appliquer chacunComparez les approches de stemming et de lemmatisation, y compris les algorithmes et bibliothèques. Vous apprendrez quand appliquer chaque méthode dans les flux de travail des tickets de support et comment elles affectent la taille du vocabulaire et le comportement des modèles.
Rule-based and algorithmic stemmersDictionary-based lemmatizersLibrary choices and performanceImpact on vocabulary and sparsityTask-driven method selectionLeçon 5Gestion des erreurs d'orthographe, abréviations et abréviations spécifiques au domaine (correction orthographique, dictionnaires de recherche)Explorez les méthodes pour corriger l'orthographe, étendre les abréviations et normaliser les abréviations spécifiques au domaine dans les tickets. Vous combinerez correction orthographique, dictionnaires de recherche et règles personnalisées tout en évitant les changements nocifs sur les entités et codes clés.
Common error types in support textDictionary and edit-distance correctionCustom domain abbreviation lexiconsContext-aware correction strategiesProtecting entities and codesLeçon 6Compromis de suppression des mots vides et listes de mots vides configurables pour les domaines de tickets de supportExaminez les compromis de la suppression des mots vides dans les domaines de tickets de support. Vous concevrez des listes de mots vides configurables, évaluerez leur impact sur les modèles et gérerez les mots fonctionnels spécifiques au domaine qui peuvent porter une intention subtile.
Standard vs domain stopword listsImpact on bag-of-words featuresEffect on embeddings and transformersConfigurable and layered stopword setsEvaluating removal with ablationLeçon 7Fondamentaux de la normalisation de texte : mise en minuscules, normalisation Unicode, gestion des espaces et sauts de ligneCouvrez les étapes fondamentales de normalisation du texte telles que la mise en minuscules, la normalisation Unicode et le nettoyage des espaces et sauts de ligne. Nous discutons de l'ordre des opérations, des particularités spécifiques aux langues et de la préservation des indices de formatage importants.
Lowercasing and case preservation rulesUnicode normalization formsHandling accents and special symbolsWhitespace and linebreak cleanupOrdering normalization operationsLeçon 8Stratégies de division de données : divisions basées sur le temps, échantillonnage stratifié par sujet/sentiment, et considérations de validation croisée imbriquéeÉtudiez les stratégies de division de données adaptées aux données de tickets temporelles et étiquetées. Nous comparons les divisions basées sur le temps, l'échantillonnage stratifié par sujet ou sentiment, et la validation croisée imbriquée pour une évaluation robuste des modèles.
Holdout, k-fold, and temporal splitsStratification by topic and sentimentPreventing temporal data leakageNested cross-validation workflowsAligning splits with business goalsLeçon 9Gestion des URLs, adresses e-mail, extraits de code et identifiants dans le texte (masquage vs préservation)Apprenez les stratégies pour gérer les URLs, adresses e-mail, extraits de code et identifiants dans le texte. Nous comparons le masquage, la normalisation et la préservation, en nous concentrant sur la confidentialité, la déduplication et les implications sur les performances des modèles.
Detecting URLs and email patternsMasking versus normalization rulesRepresenting code snippets safelyHandling ticket and user identifiersPrivacy and leakage considerationsLeçon 10Compréhension du schéma CSV et des types de données (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Apprenez à interpréter les schémas CSV pour les ensembles de données de tickets et à assigner les types de données corrects. Nous couvrons l'analyse des identifiants, horodatages, booléens et champs texte, plus des vérifications de validation qui préviennent les erreurs subtiles en aval.
Inspecting headers and sample rowsAssigning robust column data typesValidating timestamps and IDsDetecting malformed or mixed typesSchema validation in pipelinesLeçon 11Techniques pour détecter et quantifier les valeurs manquantes et le bruit d'étiquettes (motifs de manquance, vérifications de cohérence des étiquettes, métriques inter-annotateurs)Apprenez à détecter les valeurs manquantes et les étiquettes bruitées dans les ensembles de données de tickets de support. Nous couvrons les motifs de manquance, les vérifications de cohérence des étiquettes et les métriques d'accord inter-annotateurs pour quantifier la qualité des étiquettes et guider les décisions de nettoyage.
Types of missingness in ticket datasetsVisualizing missingness patternsDetecting inconsistent labelsInter-annotator agreement metricsHeuristics to flag label noiseLeçon 12Création de pipelines reproductibles et versionnement des ensembles de données nettoyés (contrats de données, hachage)Apprenez à construire des pipelines de prétraitement reproductibles et des ensembles de données nettoyés versionnés. Nous couvrons la conception modulaire des pipelines, la gestion de configuration, le hachage et les contrats de données qui maintiennent les modèles, le code et les données alignés dans le temps.
Designing modular preprocessing stepsConfiguration and parameter trackingHashing raw and processed datasetsData contracts and schema guaranteesLogging and audit trails for changesLeçon 13Analyse et gestion des fuseaux horaires pour dates/heure, dérivation de caractéristiques temporelles (période de la journée, jour de la semaine, récence)Comprenez comment analyser les champs de date et heure hétérogènes, gérer les fuseaux horaires et dériver des caractéristiques temporelles. Nous nous concentrons sur l'analyse robuste, la normalisation vers un temps canonique et des caractéristiques conçues telles que la récence et la saisonnalité.
Parsing heterogeneous date formatsTimezone normalization strategiesHandling missing or invalid timestampsDeriving recency and age featuresDaypart, weekday, and seasonalityLeçon 14Imputation et traitement des colonnes non-textes (resolved, resolution_time_hours, channel) pour la modélisationExplorez l'imputation et le prétraitement pour les colonnes non-textes comme le statut de résolution, le temps de résolution et le canal. Nous discutons des stratégies d'encodage, des risques de fuite et comment aligner ces caractéristiques avec le texte pour la modélisation.
Profiling non-text ticket columnsImputation for numeric durationsEncoding categorical status fieldsAvoiding target leakage in featuresJoint modeling with text signals