Leçon 1Gestion des métadonnées de canal (motifs de tokens spécifiques au canal, encodage des métadonnées)Comprenez comment traiter les métadonnées de canal comme les chats, emails et journaux téléphoniques. Nous couvrons les motifs de tokens spécifiques aux canaux, les stratégies d'encodage et comment combiner les métadonnées avec le texte pour une modélisation plus riche.
Catalogage des canaux de support et champsMotifs de tokens spécifiques au canalEncodages one-hot et embeddingCombinaison de texte et caractéristiques de métadonnéesGestion des métadonnées de canal manquantesLeçon 2Gestion des emojis, émoticones et tokens non standards et cartographie vers les signaux de sentimentÉtudiez comment normaliser les emojis, émoticones et autres tokens non standards tout en préservant le sentiment. Nous discutons des stratégies de cartographie, lexiques et comment intégrer ces signaux dans les modèles de sentiment et d'intention en aval.
Catalogage de l'usage des emojis et émoticonesGestion et normalisation UnicodeCartographie des tokens vers les scores de sentimentConstruction de lexiques d'emojis personnalisésIntégration des signaux dans les modèlesLeçon 3Ponctuation, contractions et stratégies de tokenisation pour les textes de support en anglaisExaminez la ponctuation, les contractions et les stratégies de tokenisation pour les textes de support en anglais. Nous comparons les tokeniseurs basés sur règles et bibliothèques, gérons les cas limites et alignons la tokenisation avec les exigences des modèles en aval.
Rôle de la ponctuation dans les tickets de supportExpansion et normalisation des contractionsTokeniseurs basés sur règles vs statistiquesGestion des URLs et emojis dans les tokensTokenisation pour les modèles transformersLeçon 4Racination vs lemmatisation : algorithmes, bibliothèques et quand appliquer chacunComparez les approches de racination et lemmatisation, incluant algorithmes et bibliothèques. Vous apprendrez quand appliquer chaque méthode dans les workflows de tickets de support et comment elles affectent la taille du vocabulaire et le comportement des modèles.
Racinateurs basés sur règles et algorithmiquesLemmatiseurs basés sur dictionnaireChoix de bibliothèques et performanceImpact sur le vocabulaire et la sparsitéSélection de méthode guidée par la tâcheLeçon 5Gestion des fautes d'orthographe, abréviations et abréviations spécifiques au domaine (correction orthographique, dictionnaires de recherche)Explorez les méthodes pour corriger l'orthographe, étendre les abréviations et normaliser les abréviations spécifiques au domaine dans les tickets. Vous combinerez correction orthographique, dictionnaires de recherche et règles personnalisées tout en évitant les changements nocifs aux entités et codes clés.
Types d'erreurs courants dans les textes de supportCorrection par dictionnaire et distance d'éditionLexiques d'abréviations spécifiques au domaineStratégies de correction contextuellesProtection des entités et codesLeçon 6Compromis de suppression des mots vides et listes de mots vides configurables pour les domaines de tickets de supportExaminez les compromis de suppression des mots vides dans les domaines de tickets de support. Vous concevrez des listes de mots vides configurables, évaluerez leur impact sur les modèles et gérerez les mots fonctionnels spécifiques au domaine qui peuvent porter une intention subtile.
Listes de mots vides standard vs domaineImpact sur les caractéristiques bag-of-wordsEffet sur les embeddings et transformersEnsembles de mots vides configurables et multicouchesÉvaluation de la suppression par ablationLeçon 7Fondamentaux de normalisation de texte : minuscules, normalisation Unicode, gestion des espaces et sauts de ligneCouvrez les étapes fondamentales de normalisation de texte telles que la mise en minuscules, la normalisation Unicode et le nettoyage des espaces. Nous discutons de l'ordre des opérations, des particularités spécifiques aux langues et de la préservation des indices de formatage importants.
Mise en minuscules et règles de préservation de casseFormes de normalisation UnicodeGestion des accents et symboles spéciauxNettoyage des espaces et sauts de ligneOrdre des opérations de normalisationLeçon 8Stratégies de division des données : divisions basées sur le temps, échantillonnage stratifié par sujet/sentiment et considérations de validation croisée imbriquéeÉtudiez les stratégies de division des données adaptées aux données temporelles et étiquetées de tickets. Nous comparons les divisions basées sur le temps, l'échantillonnage stratifié par sujet ou sentiment, et la validation croisée imbriquée pour une évaluation robuste des modèles.
Holdout, k-fold et divisions temporellesStratification par sujet et sentimentPrévention de fuites temporelles de donnéesWorkflows de validation croisée imbriquéeAlignement des divisions avec les objectifs businessLeçon 9Gestion des URLs, adresses email, extraits de code et identifiants dans le texte (masquage vs préservation)Apprenez les stratégies pour gérer les URLs, emails, extraits de code et identifiants dans le texte. Nous comparons masquage, normalisation et choix de préservation, en nous concentrant sur la confidentialité, la déduplication et les implications sur les performances des modèles.
Détection des motifs URLs et emailRègles de masquage versus normalisationReprésentation sécurisée des extraits de codeGestion des identifiants de tickets et utilisateursConsidérations de confidentialité et fuitesLeçon 10Compréhension du schéma CSV et des types de données (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Apprenez à interpréter les schémas CSV pour les ensembles de données de tickets et à assigner les bons types de données. Nous couvrons l'analyse des identifiants, horodatages, booléens et champs texte, plus des vérifications de validation qui préviennent les erreurs subtiles en aval.
Inspection des en-têtes et lignes d'échantillonAssignation de types de colonnes robustesValidation des horodatages et IDsDétection des types malformés ou mixtesValidation de schéma dans les pipelinesLeçon 11Techniques pour détecter et quantifier les valeurs manquantes et le bruit d'étiquettes (motifs de manquance, vérifications de cohérence d'étiquettes, métriques inter-annotateurs)Apprenez à détecter les valeurs manquantes et les étiquettes bruitées dans les ensembles de données de tickets de support. Nous couvrons les motifs de manquance, vérifications de cohérence d'étiquettes et métriques d'accord inter-annotateurs pour quantifier la qualité des étiquettes et guider les décisions de nettoyage.
Types de manquance dans les ensembles de ticketsVisualisation des motifs de manquanceDétection des étiquettes incohérentesMétriques d'accord inter-annotateursHeuristiques pour signaler le bruit d'étiquettesLeçon 12Création de pipelines reproductibles et versionnement des ensembles de données nettoyées (contrats de données, hachage)Apprenez à construire des pipelines de prétraitement reproductibles et des ensembles de données nettoyées versionnés. Nous couvrons la conception modulaire des pipelines, la gestion de configuration, le hachage et les contrats de données qui maintiennent alignés modèles, code et données au fil du temps.
Conception d'étapes de prétraitement modulairesSuivi de configuration et paramètresHachage des ensembles bruts et traitésContrats de données et garanties de schémaJournaux et pistes d'audit des changementsLeçon 13Analyse et gestion des fuseaux horaires des dates/heure, dérivation de caractéristiques temporelles (période de la journée, jour de la semaine, récence)Comprenez comment analyser les champs de date et heure hétérogènes, gérer les fuseaux horaires et dériver des caractéristiques temporelles. Nous nous concentrons sur l'analyse robuste, la normalisation vers un temps canonique et les caractéristiques dérivées comme la récence et la saisonnalité.
Analyse des formats de date hétérogènesStratégies de normalisation des fuseaux horairesGestion des horodatages manquants ou invalidesDérivation de caractéristiques de récence et âgePériode de la journée, jour de la semaine et saisonnalitéLeçon 14Imputation et traitement des colonnes non-textuelles (resolved, resolution_time_hours, channel) pour la modélisationExplorez l'imputation et le prétraitement pour les colonnes non-textuelles comme le statut de résolution, le temps de résolution et le canal. Nous discutons des stratégies d'encodage, risques de fuite et comment aligner ces caractéristiques avec le texte pour la modélisation.
Profilage des colonnes de tickets non-textuellesImputation pour les durées numériquesEncodage des champs de statut catégorielsÉvitement de fuites de cible dans les caractéristiquesModélisation conjointe avec signaux texte