Урок 1Обробка метаданих каналів (токен-патерни специфічні для каналів, кодування метаданих)Дізнайтеся, як обробляти метадані каналів, такі як чати, email та телефонні логи. Ми розглянемо токен-патерни специфічні для каналів, стратегії кодування та способи комбінування метаданих з текстом для багатшого моделювання.
Каталогізація каналів підтримки та полівТокен-патерни специфічні для каналівКодування one-hot та embeddingКомбінування текстових та метаданих ознакОбробка відсутніх метаданих каналівУрок 2Обробка емодзі, емодзіконів та нетипових токенів з відображенням на сигнали сентиментуВивчіть, як нормалізувати емодзі, емодзікони та інші нетипові токени, зберігаючи сентимент. Ми обговоримо стратегії відображення, лексикони та інтеграцію цих сигналів у моделі сентименту та намірів.
Каталогізація використання емодзі та емодзіконівОбробка та нормалізація UnicodeВідображення токенів на оцінки сентиментуСтворення кастомних лексиконів емодзіІнтеграція сигналів у моделіУрок 3Пунктуація, скорочення та стратегії токенізації для англійського тексту підтримкиДослідіть пунктуацію, скорочення та стратегії токенізації для англійського тексту підтримки. Ми порівняємо токенізатори на основі правил та бібліотек, обробимо крайні випадки та узгодимо токенізацію з вимогами моделей.
Роль пунктуації в тікетах підтримкиРозгортання та нормалізація скороченьТокенізатори на основі правил проти статистичнихОбробка URL та емодзі в токенахТокенізація для трансформер-моделейУрок 4Стемінг проти лематизації: алгоритми, бібліотеки та коли застосовувати коженПорівняйте підходи стемінгу та лематизації, включаючи алгоритми та бібліотеки. Ви дізнаєтесь, коли застосовувати кожен метод у робочих процесах тікетів підтримки та як вони впливають на розмір словника та поведінку моделі.
Стемери на основі правил та алгоритмівЛематизатори на основі словниківВибір бібліотек та продуктивністьВплив на словник та разреженістьВибір методу залежно від задачіУрок 5Обробка помилок правопису, абревіатур та доменних скорочень (виправлення правопису, словники пошуку)Дослідіть методи виправлення правопису, розгортання абревіатур та нормалізації доменних скорочень у тікетах. Ви комбінуватимете виправлення правопису, словники пошуку та кастомні правила, уникаючи шкідливих змін ключових сутностей та кодів.
Типові помилки в тексті підтримкиВиправлення словниками та відстанню редагуванняКастомні лексикони доменних абревіатурСтратегії виправлення з урахуванням контекстуЗахист сутностей та кодівУрок 6Компроміси видалення стоп-слів та налаштовувані списки стоп-слів для доменів тікетів підтримкиДослідіть компроміси видалення стоп-слів у доменах тікетів підтримки. Ви розробите налаштовувані списки стоп-слів, оціните їхній вплив на моделі та обробите доменно-специфічні функційні слова, які можуть нести тонкі наміри.
Стандартні проти доменних списків стоп-слівВплив на ознаки bag-of-wordsЕфект на ембедінги та трансформериНалаштовувані та шаруваті набори стоп-слівОцінка видалення за допомогою абляціїУрок 7Основи нормалізації тексту: приведення до нижнього регістру, нормалізація Unicode, обробка пробілів та переносів рядківРозгляньте основні кроки нормалізації тексту, такі як приведення до нижнього регістру, нормалізація Unicode та очищення пробілів. Ми обговоримо порядок операцій, мовні особливості та збереження важливих форматувальних сигналів.
Приведення до нижнього регістру та правила збереження регіструФорми нормалізації UnicodeОбробка наголосів та спеціальних символівОчищення пробілів та переносів рядківПорядок операцій нормалізаціїУрок 8Стратегії розподілу даних: розподіли за часом, стратифікована вибірка за темою/сентиментом та міркування вкладених крос-валідаційВивчіть стратегії розподілу даних, адаптовані до тимчасових та міткованих даних тікетів. Ми порівняємо розподіли за часом, стратифіковану вибірку за темою чи сентиментом та вкладені крос-валідації для надійної оцінки моделей.
Holdout, k-fold та тимчасові розподілиСтратифікація за темою та сентиментомЗапобігання витоку тимчасових данихРобочі процеси вкладених крос-валідаційУзгодження розподілів з бізнес-цілямиУрок 9Обробка URL, email адрес, фрагментів коду та ідентифікаторів у тексті (маскування проти збереження)Дізнайтеся стратегії обробки URL, email, фрагментів коду та ідентифікаторів у тексті. Ми порівняємо маскування, нормалізацію та збереження, зосередившись на приватності, дедуплікації та впливі на продуктивність моделі.
Виявлення патернів URL та emailПравила маскування проти нормалізаціїБезпечне представлення фрагментів кодуОбробка ідентифікаторів тікетів та користувачівМіркування приватності та витоківУрок 10Розуміння схеми CSV та типів даних (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Навчіться інтерпретувати схеми CSV для наборів даних тікетів та призначати правильні типи даних. Ми розглянемо парсинг ідентифікаторів, міток часу, булевих значень та текстових полів, плюс перевірки валідності, що запобігають тонким помилкам.
Перевірка заголовків та зразкових рядківПризначення надійних типів даних колонокВалідація міток часу та IDВиявлення пошкоджених або змішаних типівВалідація схеми в пайплайнахУрок 11Техніки виявлення та кількісної оцінки відсутніх значень та шумових міток (патерни відсутності, перевірки консистентності міток, метрики міжанотаторів)Навчіться виявляти відсутні значення та шумові мітки в наборах даних тікетів підтримки. Ми розглянемо патерни відсутності, перевірки консистентності міток та метрики узгодженості між анотаторами для кількісної оцінки якості міток.
Типи відсутності в наборах даних тікетівВізуалізація патернів відсутностіВиявлення неконсистентних мітокМетрики узгодженості між анотаторамиЕвристики для позначення шумових мітокУрок 12Створення відтворюваних пайплайнів та версіонування очищених наборів даних (контракти даних, хешування)Навчіться будувати відтворювані пайплайни попередньої обробки та версіоновані очищені набори даних. Ми розглянемо модульний дизайн пайплайнів, керування конфігурацією, хешування та контракти даних для узгодженості моделей, коду та даних.
Проектування модульних кроків попередньої обробкиВідстеження конфігурації та параметрівХешування сирих та оброблених наборів данихКонтракти даних та гарантії схемиЖурналювання та аудит змінУрок 13Парсинг дати/часу та обробка часових поясів, отримання тимчасових ознак (частина дня, день тижня, свіжість)Зрозумійте, як парсити неоднорідні поля дати та часу, обробляти часові пояси та отримувати тимчасові ознаки. Ми зосередимося на надійному парсингу, нормалізації до канонічного часу та створенні ознак, таких як свіжість та сезонність.
Парсинг неоднорідних форматів датСтратегії нормалізації часових поясівОбробка відсутніх або невалідних міток часуОтримання ознак свіжості та вікуЧастина дня, день тижня та сезонністьУрок 14Імпутація та обробка нетекстових колонок (resolved, resolution_time_hours, channel) для моделюванняДослідіть імпутацію та попередню обробку нетекстових колонок, таких як статус вирішення, час вирішення та канал. Ми обговоримо стратегії кодування, ризики витоку та узгодження цих ознак з текстом для моделювання.
Профілювання нетекстових колонок тікетівІмпутація для числових тривалостейКодування категориальних полів статусуУникнення витоку цільової змінної в ознакахСпільне моделювання з текстовими сигналами