Μάθημα 1Διαχείριση μεταδεδομένων καναλιών (μοτίβα διακριτών καναλιών, κωδικοποίηση μεταδεδομένων)Κατανοήστε πώς να επεξεργάζεστε μεταδεδομένα καναλιού όπως chat, email και αρχεία τηλεφωνικών καταγραφών. Καλύπτουμε μοτίβα διακριτών καναλιών, στρατηγικές κωδικοποίησης και πώς να συνδυάζετε μεταδεδομένα με κείμενο για πλουσιότερη μοντελοποίηση.
Cataloging support channels and fieldsChannel-specific token patternsOne-hot and embedding encodingsCombining text and metadata featuresHandling missing channel metadataΜάθημα 2Διαχείριση emoji, emoticons και μη τυπικών διακριτών με χαρτογράφηση σε σήματα διάθεσηςΜελετήστε πώς να ομαλοποιείτε emoji, emoticons και άλλα μη τυπικά διακριτά διατηρώντας τη διάθεση. Συζητάμε στρατηγικές χαρτογράφησης, λεξικά και πώς να ενσωματώνετε αυτά τα σήματα σε μοντέλα διάθεσης και πρόθεσης περαιτέρω.
Cataloging emoji and emoticon usageUnicode handling and normalizationMapping tokens to sentiment scoresBuilding custom emoji lexiconsIntegrating signals into modelsΜάθημα 3Σημεία στίξης, συντμήσεις και στρατηγικές διακριτοποίησης για αγγλικά κείμενα υποστήριξηςΕξετάστε σημεία στίξης, συντμήσεις και στρατηγικές διακριτοποίησης για αγγλικά κείμενα υποστήριξης. Συγκρίνουμε διακριτοποιητές βασισμένους σε κανόνες και βιβλιοθήκες, διαχειριζόμαστε ακραίες περιπτώσεις και ευθυγραμμίζουμε τη διακριτοποίηση με απαιτήσεις μοντέλων περαιτέρω.
Role of punctuation in support ticketsExpanding and normalizing contractionsRule-based vs statistical tokenizersHandling URLs and emojis in tokensTokenization for transformer modelsΜάθημα 4Stemming vs lemmatization: αλγόριθμοι, βιβλιοθήκες και πότε να εφαρμόζετε το καθέναΣυγκρίνετε προσεγγίσεις stemming και lemmatization, συμπεριλαμβανομένων αλγορίθμων και βιβλιοθηκών. Θα μάθετε πότε να εφαρμόζετε κάθε μέθοδο σε ροές εργασιών εισιτηρίων υποστήριξης και πώς επηρεάζουν το μέγεθος λεξιλογίου και τη συμπεριφορά μοντέλου.
Rule-based and algorithmic stemmersDictionary-based lemmatizersLibrary choices and performanceImpact on vocabulary and sparsityTask-driven method selectionΜάθημα 5Διαχείριση ορθογραφικών λαθών, συντομογραφιών και συντομεύσεων ειδικής περιοχής (διόρθωση ορθογραφίας, λεξικά αναζήτησης)Εξερευνήστε μεθόδους διόρθωσης ορθογραφίας, ανάπτυξης συντομογραφιών και ομαλοποίησης συντομεύσεων ειδικής περιοχής σε εισιτήρια. Θα συνδυάσετε διόρθωση ορθογραφίας, λεξικά αναζήτησης και προσαρμοσμένους κανόνες αποφεύγοντας επιβλαβείς αλλαγές σε βασικές οντότητες και κώδικες.
Common error types in support textDictionary and edit-distance correctionCustom domain abbreviation lexiconsContext-aware correction strategiesProtecting entities and codesΜάθημα 6Συνέπειες αφαίρεσης stopwords και ρυθμιζόμενες λίστες stopwords για περιοχές εισιτηρίων υποστήριξηςΕξετάστε τις συνέπειες αφαίρεσης stopwords σε περιοχές εισιτηρίων υποστήριξης. Θα σχεδιάσετε ρυθμιζόμενες λίστες stopwords, θα αξιολογήσετε την επίδρασή τους σε μοντέλα και θα διαχειριστείτε λειτουργικές λέξεις ειδικής περιοχής που μπορεί να φέρουν λεπτή πρόθεση.
Standard vs domain stopword listsImpact on bag-of-words featuresEffect on embeddings and transformersConfigurable and layered stopword setsEvaluating removal with ablationΜάθημα 7Βασικές αρχές ομαλοποίησης κειμένου: πεζογράφηση, ομαλοποίηση Unicode, διαχείριση κενών και αλλαγών γραμμήςΚαλύψτε βασικά βήματα ομαλοποίησης κειμένου όπως πεζογράφηση, ομαλοποίηση Unicode και καθαρισμός κενών. Συζητάμε σειρά πράξεων, ιδιαιτερότητες γλώσσας και διατήρηση σημαντικών ενδείξεων μορφοποίησης.
Lowercasing and case preservation rulesUnicode normalization formsHandling accents and special symbolsWhitespace and linebreak cleanupOrdering normalization operationsΜάθημα 8Στρατηγικές διαχωρισμού δεδομένων: διαχωρισμοί βασισμένοι σε χρόνο, στρωματοποιημένη δειγματοληψία κατά θέμα/διάθεση και σκέψεις εγκιβωτισμένης διασταύρωσης επικύρωσηςΜελετήστε στρατηγικές διαχωρισμού δεδομένων προσαρμοσμένες σε χρονικά και επισημασμένα δεδομένα εισιτηρίων. Συγκρίνουμε διαχωρισμούς βασισμένους σε χρόνο, στρωματοποιημένη δειγματοληψία κατά θέμα ή διάθεση και εγκιβωτισμένη διασταύρωση επικύρωσης για αξιόπιστη αξιολόγηση μοντέλου.
Holdout, k-fold, and temporal splitsStratification by topic and sentimentPreventing temporal data leakageNested cross-validation workflowsAligning splits with business goalsΜάθημα 9Διαχείριση URLs, διευθύνσεων email, αποσπασμάτων κώδικα και αναγνωριστικών σε κείμενο (μασκάρισμα vs διατήρηση)Μάθετε στρατηγικές για URLs, emails, αποσπάσματα κώδικα και αναγνωριστικά σε κείμενο. Συγκρίνουμε επιλογές μασκαρίσματος, ομαλοποίησης και διατήρησης, εστιάζοντας σε ιδιωτικότητα, αποδιαπλάτυνση και επιπτώσεις απόδοσης μοντέλου.
Detecting URLs and email patternsMasking versus normalization rulesRepresenting code snippets safelyHandling ticket and user identifiersPrivacy and leakage considerationsΜάθημα 10Κατανόηση σχήματος CSV και τύπων δεδομένων (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Μάθετε να ερμηνεύετε σχήματα CSV για σύνολα δεδομένων εισιτηρίων και να εκχωρείτε σωστούς τύπους δεδομένων. Καλύπτουμε ανάλυση αναγνωριστικών, χρονικών σφραγίδων, boolean και πεδίων κειμένου, συν ελέγχους επικύρωσης που αποτρέπουν λεπτά λάθη περαιτέρω.
Inspecting headers and sample rowsAssigning robust column data typesValidating timestamps and IDsDetecting malformed or mixed typesSchema validation in pipelinesΜάθημα 11Τεχνικές ανίχνευσης και ποσοτικοποίησης ελλιπών τιμών και θορύβου ετικετών (μοτίβα ελλιπούς, έλεγχοι συνέπειας ετικετών, μετρήσεις δια-επισημαστού)Μάθετε να ανιχνεύετε ελλιπείς τιμές και θορυβώδεις ετικέτες σε σύνολα δεδομένων εισιτηρίων υποστήριξης. Καλύπτουμε μοτίβα ελλιπούς, ελέγχους συνέπειας ετικετών και μετρήσεις συμφωνίας δια-επισημαστού για ποσοτικοποίηση ποιότητας ετικετών και καθοδήγηση αποφάσεων καθαρισμού.
Types of missingness in ticket datasetsVisualizing missingness patternsDetecting inconsistent labelsInter-annotator agreement metricsHeuristics to flag label noiseΜάθημα 12Δημιουργία αναπαραγώγιμων σωληνώσεων και έκδοση καθαρισμένων συνόλων δεδομένων (συμβόλαια δεδομένων, hashing)Μάθετε να δημιουργείτε αναπαραγώγιμες σωληνώσεις προεπεξεργασίας και εκδομένες καθαρισμένες βάσεις δεδομένων. Καλύπτουμε σχεδιασμό modular σωληνώσεων, διαχείριση ρυθμίσεων, hashing και συμβόλαια δεδομένων που διατηρούν μοντέλα, κώδικα και δεδομένα ευθυγραμμισμένα με τον χρόνο.
Designing modular preprocessing stepsConfiguration and parameter trackingHashing raw and processed datasetsData contracts and schema guaranteesLogging and audit trails for changesΜάθημα 13Ανάλυση ημερομηνιών/ωρών και διαχείριση ζωνών ώρας, εξαγωγή χρονικών χαρακτηριστικών (daypart, ημέρα εβδομάδας, πρόσφατο)Κατανοήστε πώς να αναλύετε ετερόκλητα πεδία ημερομηνιών και ωρών, να διαχειρίζεστε ζώνες ώρας και να εξάγετε χρονικά χαρακτηριστικά. Εστιάζουμε σε στιβαρή ανάλυση, ομαλοποίηση σε κανονικό χρόνο και μηχανικά χαρακτηριστικά όπως πρόσφατο και εποχικότητα.
Parsing heterogeneous date formatsTimezone normalization strategiesHandling missing or invalid timestampsDeriving recency and age featuresDaypart, weekday, and seasonalityΜάθημα 14Εκτίμηση και επεξεργασία μη-κειμενικών στηλών (resolved, resolution_time_hours, channel) για μοντελοποίησηΕξερευνήστε εκτίμηση και προεπεξεργασία για μη-κειμενικές στήλες όπως κατάσταση επίλυσης, χρόνος επίλυσης και κανάλι. Συζητάμε στρατηγικές κωδικοποίησης, κινδύνους διαρροής και πώς να ευθυγραμμίζετε αυτά τα χαρακτηριστικά με κείμενο για μοντελοποίηση.
Profiling non-text ticket columnsImputation for numeric durationsEncoding categorical status fieldsAvoiding target leakage in featuresJoint modeling with text signals