שיעור 1טיפול במטא-נתונים של ערוצים (דפוסי טוקנים ספציפיים לערוץ, קידוד מטא-נתונים)למדו כיצד לעבד מטא-נתונים של ערוצים כמו צ'אט, אימייל ולוגים של שיחות טלפון. אנו מכסים דפוסי טוקנים ספציפיים לערוץ, אסטרטגיות קידוד ומשלבות מטא-נתונים עם טקסט למודלים עשירים יותר.
Cataloging support channels and fieldsChannel-specific token patternsOne-hot and embedding encodingsCombining text and metadata featuresHandling missing channel metadataשיעור 2טיפול באימוג'י, אמוטיקונים וטוקנים לא סטנדרטיים ומפוי לסיגנלי סנטימנטלמדו כיצד לנרמל אימוג'י, אמוטיקונים וטוקנים לא סטנדרטיים תוך שמירה על סנטימנט. אנו דנים באסטרטגיות מיפוי, מילונים ומשלבים אותות אלה במודלי סנטימנט וכוונה.
Cataloging emoji and emoticon usageUnicode handling and normalizationMapping tokens to sentiment scoresBuilding custom emoji lexiconsIntegrating signals into modelsשיעור 3סימני פיסוק, קיצורים ואסטרטגיות טוקניזציה לטקסט תמיכה באנגליתבחנו סימני פיסוק, קיצורים וטוקניזציה עבור טקסט תמיכה באנגלית. אנו משווים טוקנייזרים מבוססי חוקים וספריות, מטפלים במקרי קצה ומתאימים טוקניזציה לדרישות המודל.
Role of punctuation in support ticketsExpanding and normalizing contractionsRule-based vs statistical tokenizersHandling URLs and emojis in tokensTokenization for transformer modelsשיעור 4סטמינג מול למטיזציה: אלגוריתמים, ספריות ומתי להשתמש בכל אחתהשוו גישות סטמינג ולמטיזציה, כולל אלגוריתמים וספריות. תלמדו מתי להשתמש בכל שיטה בתהליכי כרטיסי תמיכה וכיצד הן משפיעות על גודל אוצר המילים והתנהגות המודל.
Rule-based and algorithmic stemmersDictionary-based lemmatizersLibrary choices and performanceImpact on vocabulary and sparsityTask-driven method selectionשיעור 5טיפול בטעויות איות, קיצורים וקיצורי דומיין ספציפיים (תיקון איות, מילוני חיפוש)חקרו שיטות לתיקון איות, הרחבת קיצורים ונרמול קיצורי דומיין בכרטיסים. תשלבו תיקון איות, מילוני חיפוש וחוקים מותאמים תוך הימנעות משינויים מזיקים לישויות ומקודים מרכזיים.
Common error types in support textDictionary and edit-distance correctionCustom domain abbreviation lexiconsContext-aware correction strategiesProtecting entities and codesשיעור 6מאזנים של הסרת מילות עצירה ורשימות מילות עצירה ניתנות להגדרה לדומייני כרטיסי תמיכהבחנו את המאזנים של הסרת מילות עצירה בדומייני כרטיסי תמיכה. תתכננו רשימות מילות עצירה ניתנות להגדרה, תעריכו את השפעתן על מודלים ותטפלו במילות פונקציה ספציפיות לדומיין שיכולות לשאת כוונה עדינה.
Standard vs domain stopword listsImpact on bag-of-words featuresEffect on embeddings and transformersConfigurable and layered stopword setsEvaluating removal with ablationשיעור 7יסודות נרמול טקסט: אותיות קטנות, נרמול יוניקוד, טיפול ברווחים ושורות חדשותכסו שלבי נרמול טקסט בסיסיים כמו אותיות קטנות, נרמול יוניקוד וניקוי רווחים. אנו דנים בסדר הפעולות, אזהרות ספציפיות לשפה ושמירה על רמזי עיצוב חשובים.
Lowercasing and case preservation rulesUnicode normalization formsHandling accents and special symbolsWhitespace and linebreak cleanupOrdering normalization operationsשיעור 8אסטרטגיות פיצול נתונים: פיצולים מבוססי זמן, דגימה מסווגת לפי נושא/סנטימנט ושיקולים לאימות צלבי מקונןלמדו אסטרטגיות פיצול נתונים מותאמות לנתוני כרטיסים זמניים ומסומנים. אנו משווים פיצולים מבוססי זמן, דגימה מסווגת לפי נושא או סנטימנט ואימות צלבי מקונן להערכת מודלים חזקה.
Holdout, k-fold, and temporal splitsStratification by topic and sentimentPreventing temporal data leakageNested cross-validation workflowsAligning splits with business goalsשיעור 9טיפול ב-URLs, כתובות אימייל, קטעי קוד ומזהים בטקסט (מסיכה מול שמירה)למדו אסטרטגיות לטיפול ב-URLs, כתובות אימייל, קטעי קוד ומזהים בטקסט. אנו משווים מסיכה, נרמול ושמירה, תוך התמקדות בפרטיות, ניכוי כפילויות והשלכות ביצועי מודל.
Detecting URLs and email patternsMasking versus normalization rulesRepresenting code snippets safelyHandling ticket and user identifiersPrivacy and leakage considerationsשיעור 10הבנת סכמת CSV וסוגי נתונים (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)למדו לפרש סכמות CSV לנתוני כרטיסים ולהקצות סוגי נתונים נכונים. אנו מכסים ניתוח מזהים, חותמות זמן, בוליאנים ושדות טקסט, בתוספת בדיקות אימות שמונעות שגיאות עדינות.
Inspecting headers and sample rowsAssigning robust column data typesValidating timestamps and IDsDetecting malformed or mixed typesSchema validation in pipelinesשיעור 11טכניקות לזיהוי וכימות ערכים חסרים ורעש תוויות (דפוסי חסר, בדיקות עקביות תוויות, מדדי הסכמה בין מרקמים)למדו לזהות ערכים חסרים ורעש תוויות בנתוני כרטיסי תמיכה. אנו מכסים דפוסי חסר, בדיקות עקביות תוויות ומדדי הסכמה בין מרקמים לכימות איכות תוויות והנחיית החלטות ניקוי.
Types of missingness in ticket datasetsVisualizing missingness patternsDetecting inconsistent labelsInter-annotator agreement metricsHeuristics to flag label noiseשיעור 12יצירת צנרות ניתנות לשחזור וגרסאות מאגרי נתונים מנוקים (חוזי נתונים, האשינג)למדו לבנות צנרות עיבוד מקדימה ניתנות לשחזור ומאגרי נתונים מנוקים מגרסאות. אנו מכסים עיצוב צנרת מודולרי, ניהול תצורה, האשינג וחוזי נתונים ששומרים על מודלים, קוד ונתונים מיושרים לאורך זמן.
Designing modular preprocessing stepsConfiguration and parameter trackingHashing raw and processed datasetsData contracts and schema guaranteesLogging and audit trails for changesשיעור 13ניתוח תאריך/שעה וטיפול באזורי זמן, יצירת תכונות זמניות (חלק יום, יום בשבוע, עדכניות)למדו כיצד לנתח שדות תאריך ושעה הטרוגניים, לטפל באזורי זמן וליצר תכונות זמניות. אנו מתמקדים בניתוח חזק, נרמול לזמן קנוני ותכונות מהונדסות כמו עדכניות ועונתיות.
Parsing heterogeneous date formatsTimezone normalization strategiesHandling missing or invalid timestampsDeriving recency and age featuresDaypart, weekday, and seasonalityשיעור 14השלמה וטיפול בעמודות לא-טקסט (resolved, resolution_time_hours, channel) למודלינגחקרו השלמה ועיבוד מקדים לעמודות לא-טקסט כמו סטטוס פתרון, זמן פתרון וערוץ. אנו דנים באסטרטגיות קידוד, סיכוני דליפה והתאמת תכונות אלה לטקסט למודלינג.
Profiling non-text ticket columnsImputation for numeric durationsEncoding categorical status fieldsAvoiding target leakage in featuresJoint modeling with text signals