Les 1Behandeling van kanaalmetadata (kanaalspecifieke tokenpatronen, metadata-encoding)Leer hoe je kanaalmetadata zoals chat, e-mail en telefoonlogs verwerkt. We bespreken kanaalspecifieke tokenpatronen, encoding-strategieën en hoe je metadata combineert met tekst voor rijkere modellering.
Catalogiseren van supportkanalen en veldenKanaalspecifieke tokenpatronenOne-hot en embedding-encodingsCombineren van tekst- en metadata-featuresBehandelen van ontbrekende kanaalmetadataLes 2Emoji, emoticons en niet-standaard tokenbehandeling en mapping naar sentiment-signalenBestudeer hoe je emojis, emoticons en andere niet-standaard tokens normaliseert terwijl je sentiment behoudt. We bespreken mapping-strategieën, lexicons en hoe je deze signalen integreert in downstream sentiment- en intent-modellen.
Catalogiseren van emoji- en emoticongebruikUnicode-behandeling en normalisatieMapping van tokens naar sentimentscoresOpbouwen van custom emoji-lexiconsIntegreren van signalen in modellenLes 3Leestekens, contracties en tokenisatie-strategieën voor Engelse supporttekstOnderzoek leestekens, contracties en tokenisatie-strategieën voor Engelse supporttekst. We vergelijken regelgebaseerde en bibliotheek-tokenizers, behandelen edge cases en alignen tokenisatie met downstream modelvereisten.
Rol van leestekens in supportticketsUitbreiden en normaliseren van contractiesRegelgebaseerde vs statistische tokenizersBehandelen van URLs en emojis in tokensTokenisatie voor transformer-modellenLes 4Stemming vs lemmatisatie: algoritmes, bibliotheken en wanneer elk toe te passenVergelijk stemming- en lemmatisatie-aanpakken, inclusief algoritmes en bibliotheken. Je leert wanneer je elke methode toepast in supportticket-workflows en hoe ze vocabulairegrootte en modelgedrag beïnvloeden.
Regelgebaseerde en algoritmische stemmersWoordenboekgebaseerde lemmatisersBibliotheekkeuzes en prestatiesImpact op vocabulaire en sparsiteitTaakgedreven methodeselectieLes 5Behandeling van spelfouten, afkortingen en domeinspecifieke shorthand (spellingcorrectie, opzoekwoordenboeken)Verken methoden om spelling te corrigeren, afkortingen uit te breiden en domeinshorthand in tickets te normaliseren. Je combineert spellingcorrectie, opzoekwoordenboeken en custom regels terwijl je schadelijke wijzigingen aan key entities en codes vermijdt.
Veelvoorkomende fouttypes in supporttekstWoordenboek- en edit-distance-correctieCustom domein-afkortinglexiconsContextbewuste correctiestrategieënBeschermen van entities en codesLes 6Trade-offs van stopwoordverwijdering en configureerbare stopwoordlijsten voor supportticket-domeinenOnderzoek de trade-offs van stopwoordverwijdering in supportticket-domeinen. Je ontwerpt configureerbare stopwoordlijsten, evalueert hun impact op modellen en behandelt domeinspecifieke functiewoorden die subtiel intent kunnen dragen.
Standaard vs domein-stopwoordlijstenImpact op bag-of-words featuresEffect op embeddings en transformersConfigureerbare en gelaagde stopwoordsetsEvaluatie van verwijdering met ablatieLes 7Basisprincipes van tekstnormalisatie: naar kleine letters, Unicode-normalisatie, witruimte- en regelafbrekingbehandelingBehandel kernstappen van tekstnormalisatie zoals naar kleine letters brengen, Unicode-normalisatie en witruimte-opruiming. We bespreken volgorde van operaties, taalspecifieke caveats en behoud van belangrijke opmaakcues.
Naar kleine letters en behoudregelsUnicode-normalisatievormenBehandelen van accenten en speciale symbolenWitruimte- en regelafbrekingopruimingVolgorde van normalisatie-operatiesLes 8Dataverdelingsstrategieën: tijdgebaseerde splits, gestratificeerde sampling per topic/sentiment en geneste cross-validatie-overwegingenBestudeer dataverdelingsstrategieën afgestemd op temporele en gelabelde ticketdata. We vergelijken tijdgebaseerde splits, gestratificeerde sampling per topic of sentiment en geneste cross-validatie voor robuuste modelevaluatie.
Holdout, k-fold en temporele splitsStratificatie per topic en sentimentVoorkomen van temporele datalekkageGeneste cross-validatie-workflowsAlignen van splits met bedrijfsdoelenLes 9Behandeling van URLs, e-mailadressen, codesnippets en identifiers in tekst (maskeren vs behouden)Leer strategieën voor het behandelen van URLs, e-mails, codesnippets en identifiers in tekst. We vergelijken maskeren, normaliseren en behouden, met focus op privacy, deduplicatie en implicaties voor modelprestaties.
Detecteren van URL- en e-mailpatronenMaskeer- vs normalisatieregelsVeilig representeren van codesnippetsBehandelen van ticket- en gebruiker-identifiersPrivacy- en lekkage-overwegingenLes 10Begrijpen van CSV-schema en datatypes (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Leer CSV-schema's voor ticketdatasets interpreteren en juiste datatypes toewijzen. We behandelen parsen van identifiers, timestamps, booleans en tekstvelden, plus validatiechecks die subtiele downstream-fouten voorkomen.
Inspecteren van headers en sample rowsToewijzen van robuuste kolomdatatypesValideren van timestamps en IDsDetecteren van misvormde of gemengde typesSchema-validatie in pipelinesLes 11Technieken om ontbrekende waarden en labelruis te detecteren en kwantificeren (ontbrekendheidspatronen, labelconsistentiechecks, inter-annotator metrics)Leer ontbrekende waarden en ruislabels detecteren in supportticket-datasets. We behandelen ontbrekendheidspatronen, labelconsistentiechecks en inter-annotator-overeenkomstmetrics om labelkwaliteit te kwantificeren en schoonmaakbeslissingen te sturen.
Types ontbrekendheid in ticketdatasetsVisualiseren van ontbrekendheidspatronenDetecteren van inconsistente labelsInter-annotator-overeenkomstmetricsHeuristieken om labelruis te markerenLes 12Opbouwen van reproduceerbare pipelines en versiebeheer van schoongemaakte datasets (data contracts, hashing)Leer reproduceerbare preprocessing-pipelines en versiebeheer van schoongemaakte datasets op te bouwen. We behandelen modulair pipelinedesign, configuratiebeheer, hashing en data contracts die modellen, code en data aligned houden.
Ontwerpen van modulaire preprocessing-stappenConfiguratie- en parametertrackingHashing van rauwe en verwerkte datasetsData contracts en schema-garantiesLogging en audit trails voor wijzigingenLes 13Datum/tijd-parsing en tijdzonebehandeling, afleiden van temporele features (daypart, weekday, recency)Leer heterogene datum- en tijdvelden parsen, tijdzones behandelen en temporele features afleiden. We focussen op robuuste parsing, normalisatie naar canonieke tijd en geëngineerde features zoals recency en seasonaliteit.
Parsen van heterogene datumformatenTijdzone-normalisatiestrategieënBehandelen van ontbrekende of ongeldige timestampsAfleiden van recency- en leeftijdfeaturesDaypart, weekday en seasonaliteitLes 14Imputatie en behandeling van niet-tekstkolommen (resolved, resolution_time_hours, channel) voor modelleringVerken imputatie en preprocessing voor niet-tekstkolommen zoals resolutie-status, resolutietijd en kanaal. We bespreken encoding-strategieën, lekkagerisico's en hoe je deze features align met tekst voor modellering.
Profiel van niet-tekst ticketkolommenImputatie voor numerieke duurEncoding van categorische statusveldenVermijden van targetlekkage in featuresGezamenlijke modellering met tekstsignalen