Ders 1Kanal meta verilerini işleme (kanal bazlı token kalıpları, meta veri kodlama)Sohbet, e-posta ve telefon günlükleri gibi kanal meta verilerini nasıl işleyeceğinizi anlayın. Kanal bazlı token kalıplarını, kodlama stratejilerini ve meta veriyi metinle zengin modelleme için nasıl birleştireceğinizi kapsarız.
Cataloging support channels and fieldsChannel-specific token patternsOne-hot and embedding encodingsCombining text and metadata featuresHandling missing channel metadataDers 2Emoji, emojikon ve standart dışı token işleme ve duygu sinyallerine eşlemeDuygu sinyallerini korurken emojileri, emojikonları ve diğer standart dışı tokenleri normalize etmeyi inceleyin. Eşleme stratejileri, sözlükler ve bu sinyalleri aşağı akış duygu ve niyet modellerine entegre etmeyi tartışırız.
Cataloging emoji and emoticon usageUnicode handling and normalizationMapping tokens to sentiment scoresBuilding custom emoji lexiconsIntegrating signals into modelsDers 3İngilizce destek metni için noktalama, kısaltmalar ve tokenizasyon stratejileriİngilizce destek metni için noktalama, kısaltmalar ve tokenizasyon stratejilerini inceleyin. Kural bazlı ve kütüphane tokenizerlarını karşılaştırır, kenar durumları işler ve tokenizasyonu aşağı akış model gereksinimleri ile uyumlu hale getiririz.
Role of punctuation in support ticketsExpanding and normalizing contractionsRule-based vs statistical tokenizersHandling URLs and emojis in tokensTokenization for transformer modelsDers 4Stemming vs lemmatizasyon: algoritmalar, kütüphaneler ve her birini uygulama zamanıStemming ve lemmatizasyon yaklaşımlarını, algoritmaları ve kütüphaneleri karşılaştırın. Destek talebi iş akışlarında her yöntemi ne zaman uygulayacağınızı ve kelime dağarcığı boyutunu ve model davranışını nasıl etkilediğini öğreneceksiniz.
Rule-based and algorithmic stemmersDictionary-based lemmatizersLibrary choices and performanceImpact on vocabulary and sparsityTask-driven method selectionDers 5Yazım hataları, kısaltmalar ve etki alanına özgü kısaltma işleme (yazım düzeltme, bakma sözlükleri)Yazım hatalarını düzeltme, kısaltmaları genişletme ve etki alanına özgü kısaltmaları normalize etme yöntemlerini keşfedin. Anahtar varlıklara ve kodlara zararlı değişiklikler yapmadan yazım düzeltme, bakma sözlükleri ve özel kuralları birleştirirsiniz.
Common error types in support textDictionary and edit-distance correctionCustom domain abbreviation lexiconsContext-aware correction strategiesProtecting entities and codesDers 6Stopwords kaldırma ödünleşmeleri ve destek talebi etki alanları için yapılandırılabilir stopwords listeleriDestek talebi etki alanlarında stopwords kaldırma ödünleşmelerini inceleyin. Yapılandırılabilir stopwords listeleri tasarlayacak, modeller üzerindeki etkilerini değerlendirecek ve ince niyet taşıyan etki alanına özgü işlev kelimelerini işleyeceksiniz.
Standard vs domain stopword listsImpact on bag-of-words featuresEffect on embeddings and transformersConfigurable and layered stopword setsEvaluating removal with ablationDers 7Metin normalizasyon temelleri: küçük harfe çevirme, Unicode normalizasyonu, boşluk ve satır sonu işlemeKüçük harfe çevirme, Unicode normalizasyonu ve boşluk/satır sonu temizleme gibi temel metin normalizasyon adımlarını kapsar. İşlem sırasını, dil özgü uyarıları ve önemli biçimlendirme ipuçlarını koruma tartışırız.
Lowercasing and case preservation rulesUnicode normalization formsHandling accents and special symbolsWhitespace and linebreak cleanupOrdering normalization operationsDers 8Veri bölme stratejileri: zaman bazlı bölmeler, konu/duygu ile katmanlı örnekleme ve iç içe çapraz doğrulama hususlarıZamansal ve etiketli bilet verilerine uyarlanmış veri bölme stratejilerini inceleyin. Zaman bazlı bölmeleri, konu veya duygu ile katmanlı örnekleme ve sağlam model değerlendirmesi için iç içe çapraz doğrulamayı karşılaştırırız.
Holdout, k-fold, and temporal splitsStratification by topic and sentimentPreventing temporal data leakageNested cross-validation workflowsAligning splits with business goalsDers 9Metindeki URL'ler, e-posta adresleri, kod parçacıkları ve tanımlayıcıları işleme (maskeleme vs koruma)Metindeki URL'leri, e-posta adreslerini, kod parçacıklarını ve tanımlayıcıları işleme stratejilerini öğrenin. Maskeleme, normalizasyon ve koruma seçimlerini karşılaştırır, gizlilik, yinelenmezlik ve model performansı etkilerine odaklanırız.
Detecting URLs and email patternsMasking versus normalization rulesRepresenting code snippets safelyHandling ticket and user identifiersPrivacy and leakage considerationsDers 10CSV şeması ve veri türlerini anlama (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Bilet veri setleri için CSV şemalarını yorumlamayı ve doğru veri türlerini atamayı öğrenin. Tanımlayıcıları, zaman damgalarını, booleanları ve metin alanlarını ayrıştırma, aşağı akış hatalarını önleyen doğrulama kontrollerini kapsarız.
Inspecting headers and sample rowsAssigning robust column data typesValidating timestamps and IDsDetecting malformed or mixed typesSchema validation in pipelinesDers 11Eksik değerleri ve etiket gürültüsünü algılama ve nicelendirme teknikleri (eksiklik kalıpları, etiket tutarlılık kontrolleri, etiketçi arası metrikler)Destek talebi veri setlerinde eksik değerleri ve etiket gürültüsünü algılama ve nicelendirme tekniklerini öğrenin. Eksiklik kalıpları, etiket tutarlılık kontrolleri ve etiket kalitesini nicelendiren etiketçi arası uyum metriklerini kapsarız.
Types of missingness in ticket datasetsVisualizing missingness patternsDetecting inconsistent labelsInter-annotator agreement metricsHeuristics to flag label noiseDers 12Tekrarlanabilir boru hatları oluşturma ve temizlenmiş veri setlerini versiyonlama (veri sözleşmeleri, hashleme)Tekrarlanabilir ön işleme boru hatları ve versiyonlanmış temizlenmiş veri setleri oluşturmayı öğrenin. Modüler boru hattı tasarımı, konfigürasyon yönetimi, hashleme ve modelleri, kodu ve veriyi zaman içinde uyumlu tutan veri sözleşmelerini kapsarız.
Designing modular preprocessing stepsConfiguration and parameter trackingHashing raw and processed datasetsData contracts and schema guaranteesLogging and audit trails for changesDers 13Tarih/saat ayrıştırma ve saat dilimi işleme, zamansal özellikleri türetme (gün parçası, hafta içi, yenilik)Heterojen tarih ve saat alanlarını ayrıştırma, saat dilimlerini işleme ve zamansal özellikleri türetme (gün parçası, hafta içi, yenilik) anlayışını edinin. Sağlam ayrıştırma, kanonik zamana normalizasyon ve yenilik ve mevsimsellik gibi mühendislik özelliklerine odaklanırız.
Parsing heterogeneous date formatsTimezone normalization strategiesHandling missing or invalid timestampsDeriving recency and age featuresDaypart, weekday, and seasonalityDers 14Modelleme için metin dışı sütunların atama ve tedavisi (resolved, resolution_time_hours, channel)Çözüm durumu, çözüm süresi ve kanal gibi metin dışı sütunlar için atama ve ön işleme keşfedin. Kodlama stratejileri, sızıntı riskleri ve bu özellikleri metin ile modelleme için uyumlulaştırmayı tartışırız.
Profiling non-text ticket columnsImputation for numeric durationsEncoding categorical status fieldsAvoiding target leakage in featuresJoint modeling with text signals