Bài học 1Xử lý metadata kênh (mẫu token đặc trưng theo kênh, mã hóa metadata)Hiểu cách xử lý metadata kênh như chat, email và nhật ký cuộc gọi. Chúng tôi bao gồm các mẫu token đặc trưng theo kênh, chiến lược mã hóa và cách kết hợp metadata với văn bản để mô hình hóa phong phú hơn.
Cataloging support channels and fieldsChannel-specific token patternsOne-hot and embedding encodingsCombining text and metadata featuresHandling missing channel metadataBài học 2Xử lý và ánh xạ emoji, emoticon, token không chuẩn sang tín hiệu cảm xúcNghiên cứu cách chuẩn hóa emoji, emoticon và các token không chuẩn khác trong khi bảo toàn cảm xúc. Chúng tôi thảo luận về chiến lược ánh xạ, từ điển và cách tích hợp các tín hiệu này vào mô hình cảm xúc và ý định downstream.
Cataloging emoji and emoticon usageUnicode handling and normalizationMapping tokens to sentiment scoresBuilding custom emoji lexiconsIntegrating signals into modelsBài học 3Dấu câu, viết tắt và chiến lược token hóa cho văn bản hỗ trợ tiếng AnhXem xét dấu câu, viết tắt và chiến lược token hóa cho văn bản hỗ trợ tiếng Anh. Chúng tôi so sánh tokenizer dựa trên quy tắc và thư viện, xử lý trường hợp biên và căn chỉnh token hóa với yêu cầu mô hình downstream.
Role of punctuation in support ticketsExpanding and normalizing contractionsRule-based vs statistical tokenizersHandling URLs and emojis in tokensTokenization for transformer modelsBài học 4Stemming vs lemmatization: thuật toán, thư viện và khi áp dụng từng cáiSo sánh cách tiếp cận stemming và lemmatization, bao gồm thuật toán và thư viện. Bạn sẽ học khi nào áp dụng từng phương pháp trong quy trình ticket hỗ trợ và cách chúng ảnh hưởng đến kích thước từ vựng và hành vi mô hình.
Rule-based and algorithmic stemmersDictionary-based lemmatizersLibrary choices and performanceImpact on vocabulary and sparsityTask-driven method selectionBài học 5Xử lý lỗi chính tả, viết tắt và viết tắt đặc trưng miền (sửa lỗi chính tả, từ điển tra cứu)Khám phá phương pháp sửa lỗi chính tả, mở rộng viết tắt và chuẩn hóa viết tắt đặc trưng miền trong ticket. Bạn sẽ kết hợp sửa lỗi chính tả, từ điển tra cứu và quy tắc tùy chỉnh trong khi tránh thay đổi có hại đối với thực thể và mã chính.
Common error types in support textDictionary and edit-distance correctionCustom domain abbreviation lexiconsContext-aware correction strategiesProtecting entities and codesBài học 6Sự đánh đổi loại bỏ stopword và danh sách stopword có thể cấu hình cho miền ticket hỗ trợXem xét sự đánh đổi của việc loại bỏ stopword trong miền ticket hỗ trợ. Bạn sẽ thiết kế danh sách stopword có thể cấu hình, đánh giá tác động đến mô hình và xử lý các từ chức năng đặc trưng miền có thể mang ý định tinh tế.
Standard vs domain stopword listsImpact on bag-of-words featuresEffect on embeddings and transformersConfigurable and layered stopword setsEvaluating removal with ablationBài học 7Cơ bản chuẩn hóa văn bản: chuyển chữ thường, chuẩn hóa Unicode, xử lý khoảng trắng và ngắt dòngBao gồm các bước chuẩn hóa văn bản cốt lõi như chuyển chữ thường, chuẩn hóa Unicode và làm sạch khoảng trắng. Chúng tôi thảo luận về thứ tự hoạt động, lưu ý đặc trưng ngôn ngữ và bảo toàn các tín hiệu định dạng quan trọng.
Lowercasing and case preservation rulesUnicode normalization formsHandling accents and special symbolsWhitespace and linebreak cleanupOrdering normalization operationsBài học 8Chiến lược chia dữ liệu: chia theo thời gian, lấy mẫu phân tầng theo chủ đề/cảm xúc, và cân nhắc cross-validation lồng nhauNghiên cứu chiến lược chia dữ liệu phù hợp với dữ liệu ticket có thời gian và nhãn. Chúng tôi so sánh chia theo thời gian, lấy mẫu phân tầng theo chủ đề hoặc cảm xúc, và cross-validation lồng nhau cho đánh giá mô hình mạnh mẽ.
Holdout, k-fold, and temporal splitsStratification by topic and sentimentPreventing temporal data leakageNested cross-validation workflowsAligning splits with business goalsBài học 9Xử lý URL, địa chỉ email, đoạn mã và định danh trong văn bản (che vs bảo toàn)Học chiến lược xử lý URL, địa chỉ email, đoạn mã và định danh trong văn bản. Chúng tôi so sánh che, chuẩn hóa và bảo toàn, tập trung vào quyền riêng tư, khử trùng lặp và tác động hiệu suất mô hình.
Detecting URLs and email patternsMasking versus normalization rulesRepresenting code snippets safelyHandling ticket and user identifiersPrivacy and leakage considerationsBài học 10Hiểu schema CSV và kiểu dữ liệu (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Học cách diễn giải schema CSV cho tập dữ liệu ticket và gán kiểu dữ liệu đúng. Chúng tôi bao gồm phân tích định danh, dấu thời gian, boolean và trường văn bản, cộng với kiểm tra xác thực ngăn chặn lỗi downstream tinh tế.
Inspecting headers and sample rowsAssigning robust column data typesValidating timestamps and IDsDetecting malformed or mixed typesSchema validation in pipelinesBài học 11Kỹ thuật phát hiện và định lượng giá trị thiếu và nhiễu nhãn (mẫu thiếu, kiểm tra tính nhất quán nhãn, chỉ số giữa annotator)Học cách phát hiện giá trị thiếu và nhiễu nhãn trong tập dữ liệu ticket hỗ trợ. Chúng tôi bao gồm mẫu thiếu, kiểm tra tính nhất quán nhãn và chỉ số thỏa thuận giữa annotator để định lượng chất lượng nhãn và hướng dẫn quyết định làm sạch.
Types of missingness in ticket datasetsVisualizing missingness patternsDetecting inconsistent labelsInter-annotator agreement metricsHeuristics to flag label noiseBài học 12Xây dựng pipeline có thể tái tạo và phiên bản hóa tập dữ liệu đã làm sạch (hợp đồng dữ liệu, hashing)Học xây dựng pipeline tiền xử lý có thể tái tạo và tập dữ liệu đã làm sạch có phiên bản. Chúng tôi bao gồm thiết kế pipeline mô-đun, quản lý cấu hình, hashing và hợp đồng dữ liệu giữ mô hình, code và dữ liệu đồng bộ theo thời gian.
Designing modular preprocessing stepsConfiguration and parameter trackingHashing raw and processed datasetsData contracts and schema guaranteesLogging and audit trails for changesBài học 13Phân tích ngày/giờ và xử lý múi giờ, suy ra đặc trưng thời gian (khoảng thời gian ngày, ngày trong tuần, độ mới)Hiểu cách phân tích trường ngày/giờ không đồng nhất, xử lý múi giờ và suy ra đặc trưng thời gian. Chúng tôi tập trung vào phân tích mạnh mẽ, chuẩn hóa sang thời gian chuẩn và đặc trưng kỹ thuật như độ mới và mùa vụ.
Parsing heterogeneous date formatsTimezone normalization strategiesHandling missing or invalid timestampsDeriving recency and age featuresDaypart, weekday, and seasonalityBài học 14Imputation và xử lý cột không phải văn bản (resolved, resolution_time_hours, channel) cho mô hình hóaKhám phá imputation và tiền xử lý cho cột không phải văn bản như trạng thái giải quyết, thời gian giải quyết và kênh. Chúng tôi thảo luận chiến lược mã hóa, rủi ro rò rỉ và cách căn chỉnh các đặc trưng này với văn bản cho mô hình hóa.
Profiling non-text ticket columnsImputation for numeric durationsEncoding categorical status fieldsAvoiding target leakage in featuresJoint modeling with text signals