Leçon 1Gestion des métadonnées de canal (motifs de jetons spécifiques au canal, encodage des métadonnées)Comprenez comment traiter les métadonnées de canal telles que les chats, courriels et journaux téléphoniques. Nous couvrons les motifs de jetons spécifiques aux canaux, les stratégies d'encodage et comment combiner les métadonnées avec le texte pour une modélisation plus riche.
Catalogage des canaux de support et champsMotifs de jetons spécifiques au canalEncodages one-hot et embeddingsCombinaison de texte et caractéristiques de métadonnéesGestion des métadonnées de canal manquantesLeçon 2Gestion et cartographie des émojis, émoticônes et jetons non standards vers des signaux de sentimentÉtudiez comment normaliser les émojis, émoticônes et autres jetons non standards tout en préservant le sentiment. Nous discutons des stratégies de cartographie, des lexiques et de l'intégration de ces signaux dans les modèles de sentiment et d'intention en aval.
Catalogage de l'usage des émojis et émoticônesGestion et normalisation UnicodeCartographie des jetons vers des scores de sentimentConstruction de lexiques d'émojis personnalisésIntégration des signaux dans les modèlesLeçon 3Ponctuation, contractions et stratégies de tokenisation pour le texte de support en anglaisExaminez la ponctuation, les contractions et les stratégies de tokenisation pour le texte de support en anglais. Nous comparons les tokeniseurs basés sur des règles et les bibliothèques, gérons les cas limites et alignons la tokenisation sur les exigences des modèles en aval.
Rôle de la ponctuation dans les billets de supportExpansion et normalisation des contractionsTokeniseurs basés sur règles vs statistiquesGestion des URL et émojis dans les jetonsTokenisation pour les modèles transformeursLeçon 4Racinement vs lemmatisation : algorithmes, bibliothèques et quand appliquer chacunComparez les approches de racinement et de lemmatisation, y compris les algorithmes et bibliothèques. Vous apprendrez quand appliquer chaque méthode dans les flux de travail des billets de support et comment elles affectent la taille du vocabulaire et le comportement des modèles.
Racineurs basés sur règles et algorithmiquesLemmatiseurs basés sur dictionnaireChoix de bibliothèques et performanceImpact sur le vocabulaire et la sparsitéSélection de méthode guidée par la tâcheLeçon 5Gestion des fautes d'orthographe, abréviations et abréviations spécifiques au domaine (correction orthographique, dictionnaires de recherche)Explorez les méthodes pour corriger l'orthographe, étendre les abréviations et normaliser les abréviations spécifiques au domaine dans les billets. Vous combinerez la correction orthographique, les dictionnaires de recherche et les règles personnalisées tout en évitant les changements nuisibles aux entités et codes clés.
Types d'erreurs courants dans le texte de supportCorrection par dictionnaire et distance d'éditionLexiques d'abréviations de domaine personnalisésStratégies de correction contextuellesProtection des entités et codesLeçon 6Compromis de suppression des mots vides et listes de mots vides configurables pour les domaines de billets de supportExaminez les compromis de la suppression des mots vides dans les domaines de billets de support. Vous concevrez des listes de mots vides configurables, évaluerez leur impact sur les modèles et gérerez les mots fonctionnels spécifiques au domaine qui peuvent porter une intention subtile.
Listes de mots vides standard vs domaineImpact sur les caractéristiques bag-of-wordsEffet sur les embeddings et transformeursEnsembles de mots vides configurables et multicouchesÉvaluation de la suppression par ablationLeçon 7Fondamentaux de la normalisation de texte : minuscules, normalisation Unicode, gestion des espaces et sauts de ligneCouvrez les étapes de base de normalisation de texte telles que les minuscules, la normalisation Unicode et le nettoyage des espaces. Nous discutons de l'ordre des opérations, des particularités spécifiques à la langue et de la préservation des indices de formatage importants.
Minuscules et règles de préservation de casseFormes de normalisation UnicodeGestion des accents et symboles spéciauxNettoyage des espaces et sauts de ligneOrdre des opérations de normalisationLeçon 8Stratégies de division des données : divisions basées sur le temps, échantillonnage stratifié par sujet/sentiment et considérations de validation croisée imbriquéeÉtudiez les stratégies de division des données adaptées aux données temporelles et étiquetées des billets. Nous comparons les divisions basées sur le temps, l'échantillonnage stratifié par sujet ou sentiment, et la validation croisée imbriquée pour une évaluation robuste des modèles.
Holdout, k-fold et divisions temporellesStratification par sujet et sentimentPrévention de fuites temporelles de donnéesFlux de validation croisée imbriquéeAlignement des divisions sur les objectifs commerciauxLeçon 9Gestion des URL, adresses courriel, extraits de code et identifiants dans le texte (masquage vs préservation)Apprenez les stratégies pour gérer les URL, courriels, extraits de code et identifiants dans le texte. Nous comparons les choix de masquage, normalisation et préservation, en nous concentrant sur la confidentialité, la déduplication et les implications sur la performance des modèles.
Détection des motifs URL et courrielRègles de masquage vs normalisationReprésentation sécurisée des extraits de codeGestion des identifiants de billets et utilisateursConsidérations de confidentialité et fuitesLeçon 10Compréhension du schéma CSV et des types de données (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Apprenez à interpréter les schémas CSV pour les ensembles de données de billets et à assigner les bons types de données. Nous couvrons l'analyse des identifiants, horodatages, booléens et champs texte, plus des vérifications de validation qui préviennent les erreurs subtiles en aval.
Inspection des en-têtes et lignes d'échantillonAssignation de types de colonnes robustesValidation des horodatages et IDDétection des types malformés ou mixtesValidation de schéma dans les pipelinesLeçon 11Techniques pour détecter et quantifier les valeurs manquantes et le bruit d'étiquettes (motifs de manquance, vérifications de cohérence d'étiquettes, métriques inter-annotateurs)Apprenez à détecter les valeurs manquantes et les étiquettes bruitées dans les ensembles de données de billets de support. Nous couvrons les motifs de manquance, les vérifications de cohérence d'étiquettes et les métriques d'accord inter-annotateurs pour quantifier la qualité des étiquettes et guider les décisions de nettoyage.
Types de manquance dans les ensembles de billetsVisualisation des motifs de manquanceDétection des étiquettes incohérentesMétriques d'accord inter-annotateursHeuristiques pour signaler le bruit d'étiquettesLeçon 12Création de pipelines reproductibles et versionnement des ensembles de données nettoyés (contrats de données, hachage)Apprenez à construire des pipelines de prétraitement reproductibles et des ensembles de données nettoyés versionnés. Nous couvrons la conception modulaire des pipelines, la gestion de configuration, le hachage et les contrats de données qui maintiennent les modèles, le code et les données alignés dans le temps.
Conception d'étapes de prétraitement modulairesSuivi de configuration et paramètresHachage des ensembles bruts et traitésContrats de données et garanties de schémaJournaux et pistes d'audit des changementsLeçon 13Analyse et gestion des fuseaux horaires des dates/heure, dérivation de caractéristiques temporelles (période de la journée, jour de la semaine, récence)Comprenez comment analyser les champs de date et heure hétérogènes, gérer les fuseaux horaires et dériver des caractéristiques temporelles. Nous nous concentrons sur l'analyse robuste, la normalisation vers un temps canonique et des caractéristiques conçues telles que la récence et la saisonnalité.
Analyse des formats de date hétérogènesStratégies de normalisation des fuseaux horairesGestion des horodatages manquants ou invalidesDérivation de caractéristiques de récence et âgePériode de la journée, jour de la semaine et saisonnalitéLeçon 14Imputation et traitement des colonnes non-textuelles (resolved, resolution_time_hours, channel) pour la modélisationExplorez l'imputation et le prétraitement pour les colonnes non-textuelles comme le statut de résolution, le temps de résolution et le canal. Nous discutons des stratégies d'encodage, des risques de fuite et comment aligner ces caractéristiques avec le texte pour la modélisation.
Profilage des colonnes de billets non-textuellesImputation pour les durées numériquesEncodage des champs de statut catégorielsÉvitement de fuites cibles dans les caractéristiquesModélisation conjointe avec signaux texte