Lektion 1Hantering av kanalmetadata (kanalspecifika tokenmönster, metadata-kodning)Förstå hur du bearbetar kanalmetadata som chatt, e-post och telefonloggar. Vi täcker kanalspecifika tokenmönster, kodningsstrategier och hur du kombinerar metadata med text för rikare modellering.
Katalogisering av supportkanaler och fältKanalspecifika tokenmönsterOne-hot och embedding-kodningarKombinera text- och metadatafunktionerHantera saknad kanalmetadataLektion 2Hantering och mappning av emoji, emoticons och icke-standardtokens till sentimentsignalerStudera hur du normaliserar emoji, emoticons och andra icke-standardtokens samtidigt som du bevarar sentiment. Vi diskuterar mappningsstrategier, lexikon och hur du integrerar dessa signaler i nedströms sentiment- och intentmodeller.
Katalogisering av emoji- och emoticon-användningUnicode-hantering och normaliseringMappning av tokens till sentimentskorerBygga anpassade emoji-lexikonIntegrera signaler i modellerLektion 3Tecken, kontraktioner och tokeniseringsstrategier för engelsk supporttextUndersök tecken, kontraktioner och tokeniseringsstrategier för engelsk supporttext. Vi jämför regelbaserade och biblioteksbaserade tokenizerare, hanterar gränsfall och anpassar tokenisering till nedströms modellkrav.
Teckenens roll i supportbiljetterUtöka och normalisera kontraktionerRegelbaserade vs statistiska tokenizerareHantera URL:er och emoji i tokensTokenisering för transformermodellerLektion 4Stamning vs lemmatiserning: algoritmer, bibliotek och när du ska använda varjeJämför stamning och lemmatiseringsmetoder, inklusive algoritmer och bibliotek. Du lär dig när du ska använda varje metod i supportbiljettarbetsflöden och hur de påverkar vokabulärstorlek och modellbeteende.
Regelbaserade och algoritmiska stamprogramOrdboksbaserade lemmatizerareBiblioteksval och prestandaPåverkan på vokabulär och sparsitetUppgiftstyrd metodsvalLektion 5Hantering av stavfel, förkortningar och domänspecifika förkortningar (stavkorrigering, uppslagningsordböcker)Utforska metoder för att korrigera stavfel, utöka förkortningar och normalisera domänspecifika förkortningar i biljetter. Du kombinerar stavkorrigering, uppslagningsordböcker och anpassade regler utan att skada viktiga entiteter och koder.
Vanliga feltyper i supporttextOrdbok och edit-avståndskorrigeringAnpassade domänförkortningslexikonKontextmedvetna korrigeringsstrategierSkydda entiteter och koderLektion 6Avvägningar vid borttagning av stoppord och konfigurerbara stoppordslistor för supportdomänerUndersök avvägningarna med borttagning av stoppord i supportdomäner. Du designar konfigurerbara stoppordslistor, utvärderar deras inverkan på modeller och hanterar domänspecifika funktionsord som kan bära subtila intentioner.
Standard vs domänstoppordslistorPåverkan på bag-of-words-funktionerEffekt på embeddings och transformatorerKonfigurerbara och lagerindelade stoppordssetUtvärdera borttagning med ablationLektion 7Grunderna i textnormalisering: versalisering, Unicode-normalisering, mellanslag och radbrytningshanteringTäck grundläggande textnormaliseringssteg som versalisering, Unicode-normalisering och rengöring av mellanslag. Vi diskuterar ordningsföljd för operationer, språkspecifika varningar och bevarande av viktiga formateringsindikatorer.
Versalisering och regler för bevarande av skiftlägeUnicode-normaliseringsformerHantera accenter och specialsymbolerRengöring av mellanslag och radbrytningarOrdningsföljd för normaliseringsoperationerLektion 8Datadelningsstrategier: tidsbaserade delningar, stratifierat urval efter ämne/sentiment och överväganden för nestad korsvalideringStudera datadelningsstrategier anpassade för temporära och märkta biljettdata. Vi jämför tidsbaserade delningar, stratifierat urval efter ämne eller sentiment och nestad korsvalidering för robust modellutvärdering.
Holdout, k-fold och temporära delningarStratifiering efter ämne och sentimentFörhindra temporär dataläckageNestad korsvalideringsarbetsflödenAnpassa delningar till affärsmålLektion 9Hantering av URL:er, e-postadresser, kodsnuttar och identifierare i text (maskering vs bevarande)Lär dig strategier för att hantera URL:er, e-postadresser, kodsnuttar och identifierare i text. Vi jämför maskering, normalisering och bevarandeval med fokus på integritet, deduplicering och modellprestandaimplikationer.
Upptäcka URL- och e-postmönsterMaskerings- vs normaliseringsreglerRepresentera kodsnuttar säkertHantera biljett- och användaridentifierareIntegritets- och läckageövervägandenLektion 10Förstå CSV-schema och datatyper (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Lär dig tolka CSV-schema för biljettdataset och tilldela korrekta datatyper. Vi täcker parsning av identifierare, tidsstämplar, booleska värden och textfält, plus valideringskontroller som förhindrar subtila nedströmsfel.
Inspektera rubriker och exempelraderTilldela robusta kolumndatatyperValidera tidsstämplar och ID:nUpptäcka felformade eller blandade typerSchemavalidering i pipelinesLektion 11Tekniker för att upptäcka och kvantifiera saknade värden och etikettbrus (saknadhetsmönster, etikettkonsistenskontroller, inter-annotatörsmått)Lär dig upptäcka saknade värden och brusiga etiketter i supportbiljettdataset. Vi täcker saknadhetsmönster, etikettkonsistenskontroller och inter-annotatörsavtal för att kvantifiera etikettkvalitet och vägleda rengöringsbeslut.
Typer av saknadhet i biljettdatasetVisualisera saknadhetsmönsterUpptäcka inkonsekventa etiketterInter-annotatörsavtalsmåttHeuristiker för att flagga etikettbrusLektion 12Skapa reproducerbara pipelines och versionshantering av rengjorda dataset (datakontrakt, hasning)Lär dig bygga reproducerbara förbehandlingspipelines och versionshanterade rengjorda dataset. Vi täcker modulär pipeline-design, konfigurationshantering, hasning och datakontrakt som håller modeller, kod och data synkroniserade över tid.
Designa modulära förbehandlingsstegKonfigurations- och parameterhanteringHasning av råa och bearbetade datasetDatakontrakt och schemagarantierLoggning och revisionsspår för ändringarLektion 13Parsning av datum/tid och tidszonsantering, härledning av temporära funktioner (dygnsdel, veckodag, aktualitet)Förstå hur du parsar heterogena datum- och tidsfält, hanterar tidszoner och härleder temporära funktioner. Vi fokuserar på robust parsning, normalisering till kanonisk tid och konstruerade funktioner som aktualitet och säsongsmässighet.
Parsa heterogena datumformatTidszonsnormaliseringsstrategierHantera saknade eller ogiltiga tidsstämplarHärleda aktualitets- och åldersfunktionerDygnsdel, veckodag och säsongsmässighetLektion 14Imputation och behandling av icke-textkolumner (resolved, resolution_time_hours, channel) för modelleringUtforska imputation och förbehandling för icke-textkolumner som lösningsstatus, lösningstid och kanal. Vi diskuterar kodningsstrategier, läckagerisker och hur du anpassar dessa funktioner med text för modellering.
Profilera icke-textbiljettkolumnerImputation för numeriska durationerKodning av kategoriska statusfältUndvika målläckage i funktionerGemensam modellering med textsignaler