Lektion 1Behandlung von Kanalmetadaten (kanalspezifische Tokenmuster, Metadatencodierung)Verstehen Sie, wie Sie Kanalmetadaten wie Chat-, E-Mail- und Telefonprotokolle verarbeiten. Wir behandeln kanalspezifische Tokenmuster, Codierungsstrategien und wie Sie Metadaten mit Text für reichhaltigere Modellierung kombinieren.
Cataloging support channels and fieldsChannel-specific token patternsOne-hot and embedding encodingsCombining text and metadata featuresHandling missing channel metadataLektion 2Behandlung und Zuordnung von Emojis, Emoticons und nicht-standardisierten Tokens zu SentimentsignalenUntersuchen Sie, wie Emojis, Emoticons und andere nicht-standardisierte Tokens normalisiert werden, während der Sentiment erhalten bleibt. Wir besprechen Zuordnungsstrategien, Lexika und wie diese Signale in nachgelagerte Sentiment- und Intent-Modelle integriert werden.
Cataloging emoji and emoticon usageUnicode handling and normalizationMapping tokens to sentiment scoresBuilding custom emoji lexiconsIntegrating signals into modelsLektion 3Interpunktion, Kontraktionen und Tokenisierungsstrategien für englischen Support-TextUntersuchen Sie Interpunktion, Kontraktionen und Tokenisierungsstrategien für englischen Support-Text. Wir vergleichen regelbasierte und Bibliotheks-Tokenisierer, behandeln Randfälle und passen die Tokenisierung an die Anforderungen nachgelagerter Modelle an.
Role of punctuation in support ticketsExpanding and normalizing contractionsRule-based vs statistical tokenizersHandling URLs and emojis in tokensTokenization for transformer modelsLektion 4Stemming vs. Lemmatisierung: Algorithmen, Bibliotheken und wann jede anwendenVergleichen Sie Stemming- und Lemmatisierungsansätze einschließlich Algorithmen und Bibliotheken. Sie lernen, wann Sie jede Methode in Support-Ticket-Workflows anwenden und wie sie die Vokabelgröße und das Modellverhalten beeinflussen.
Rule-based and algorithmic stemmersDictionary-based lemmatizersLibrary choices and performanceImpact on vocabulary and sparsityTask-driven method selectionLektion 5Behandlung von Rechtschreibfehlern, Abkürzungen und domänenspezifischen Kurzformen (Rechtschreibkorrektur, Nachschlagewörterbücher)Erkunden Sie Methoden zur Korrektur von Rechtschreibfehlern, Erweiterung von Abkürzungen und Normalisierung von domänenspezifischen Kurzformen in Tickets. Sie kombinieren Schreibkorrektur, Nachschlagewörterbücher und benutzerdefinierte Regeln, ohne schädliche Änderungen an Schlüsselentitäten und Codes vorzunehmen.
Common error types in support textDictionary and edit-distance correctionCustom domain abbreviation lexiconsContext-aware correction strategiesProtecting entities and codesLektion 6Abwägungen der Stoppwortentfernung und konfigurierbare Stoppwortlisten für Support-Ticket-DomänenUntersuchen Sie die Abwägungen der Stoppwortentfernung in Support-Ticket-Domänen. Sie gestalten konfigurierbare Stoppwortlisten, bewerten ihren Einfluss auf Modelle und behandeln domänenspezifische Funktionswörter, die subtile Intents tragen können.
Standard vs domain stopword listsImpact on bag-of-words featuresEffect on embeddings and transformersConfigurable and layered stopword setsEvaluating removal with ablationLektion 7Grundlagen der Textnormalisierung: Kleinbuchstabenumwandlung, Unicode-Normalisierung, Leerzeichen- und ZeilenumbruchbehandlungBehandeln Sie Kernschritte der Textnormalisierung wie Kleinbuchstabenumwandlung, Unicode-Normalisierung und Bereinigung von Leerzeichen. Wir besprechen die Reihenfolge der Operationen, sprachspezifische Fallstricke und Erhaltung wichtiger Formatierungsanzeichen.
Lowercasing and case preservation rulesUnicode normalization formsHandling accents and special symbolsWhitespace and linebreak cleanupOrdering normalization operationsLektion 8Datensplittstrategien: Zeitbasierte Splits, stratifizierte Stichprobe nach Thema/Sentiment und Überlegungen zur verschachtelten KreuzvalidierungUntersuchen Sie Datensplittstrategien, die auf temporale und beschriftete Ticketdaten zugeschnitten sind. Wir vergleichen zeitbasierte Splits, stratifizierte Stichproben nach Thema oder Sentiment und verschachtelte Kreuzvalidierung für robuste Modellbewertung.
Holdout, k-fold, and temporal splitsStratification by topic and sentimentPreventing temporal data leakageNested cross-validation workflowsAligning splits with business goalsLektion 9Behandlung von URLs, E-Mail-Adressen, Code-Snippets und Identifikatoren im Text (Maskierung vs. Erhaltung)Lernen Sie Strategien zur Behandlung von URLs, E-Mail-Adressen, Code-Snippets und Identifikatoren im Text. Wir vergleichen Maskierung, Normalisierung und Erhaltung unter Berücksichtigung von Datenschutz, Deduplizierung und Auswirkungen auf die Modellleistung.
Detecting URLs and email patternsMasking versus normalization rulesRepresenting code snippets safelyHandling ticket and user identifiersPrivacy and leakage considerationsLektion 10Verständnis von CSV-Schema und Datentypen (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Lernen Sie, CSV-Schemata für Ticketdatensätze zu interpretieren und korrekte Datentypen zuzuweisen. Wir behandeln das Parsen von Identifikatoren, Zeitstempeln, Booleans und Textfeldern sowie Validierungsprüfungen, die subtile nachgelagerte Fehler verhindern.
Inspecting headers and sample rowsAssigning robust column data typesValidating timestamps and IDsDetecting malformed or mixed typesSchema validation in pipelinesLektion 11Techniken zur Erkennung und Quantifizierung fehlender Werte und Label-Noise (Missingness-Muster, Label-Konsistenzprüfungen, Inter-Annotator-Metriken)Lernen Sie, fehlende Werte und label noise in Support-Ticket-Datensätzen zu erkennen und zu quantifizieren. Wir behandeln Missingness-Muster, Label-Konsistenzprüfungen und Inter-Annotator-Abstimmungsmetriken zur Quantifizierung der Labelqualität und Steuerung von Bereinigungsentscheidungen.
Types of missingness in ticket datasetsVisualizing missingness patternsDetecting inconsistent labelsInter-annotator agreement metricsHeuristics to flag label noiseLektion 12Erstellung reproduzierbarer Pipelines und Versionierung bereinigter Datensätze (Data Contracts, Hashing)Lernen Sie, reproduzierbare Vorverarbeitungspipelines und versionierte bereinigte Datensätze zu erstellen. Wir behandeln modularen Pipeline-Design, Konfigurationsmanagement, Hashing und Data Contracts, die Modelle, Code und Daten über die Zeit ausgerichtet halten.
Designing modular preprocessing stepsConfiguration and parameter trackingHashing raw and processed datasetsData contracts and schema guaranteesLogging and audit trails for changesLektion 13Datums-/Zeitparsing und Zeitzonenbehandlung, Ableitung temporaler Features (Tageszeit, Wochentag, Aktualität)Verstehen Sie, wie heterogene Datum- und Zeitfelder geparst, Zeitzonen gehandhabt und temporale Merkmale abgeleitet werden. Wir konzentrieren uns auf robustes Parsing, Normalisierung auf kanonische Zeit und Features wie Aktualität und Saisonalität.
Parsing heterogeneous date formatsTimezone normalization strategiesHandling missing or invalid timestampsDeriving recency and age featuresDaypart, weekday, and seasonalityLektion 14Imputation und Behandlung von Nicht-Text-Spalten (resolved, resolution_time_hours, channel) für die ModellierungErkunden Sie Imputation und Vorverarbeitung für Nicht-Text-Spalten wie Auflösungsstatus, Auflösungszeit und Kanal. Wir besprechen Codierungsstrategien, Leakage-Risiken und Ausrichtung dieser Features mit Text für die Modellierung.
Profiling non-text ticket columnsImputation for numeric durationsEncoding categorical status fieldsAvoiding target leakage in featuresJoint modeling with text signals