Урок 1Обработка метаданных каналов (шаблоны токенов специфичные для каналов, кодирование метаданных)Поймите, как обрабатывать метаданные каналов, такие как чаты, email и телефонные логи. Мы рассмотрим шаблоны токенов специфичные для каналов, стратегии кодирования и способы комбинирования метаданных с текстом для более богатого моделирования.
Cataloging support channels and fieldsChannel-specific token patternsOne-hot and embedding encodingsCombining text and metadata featuresHandling missing channel metadataУрок 2Обработка эмодзи, эмотиконов и нестандартных токенов с картированием на сигналы настроенияИзучите, как нормализовать эмодзи, эмотиконы и другие нестандартные токены, сохраняя при этом настроение. Мы обсудим стратегии картирования, лексиконы и способы интеграции этих сигналов в модели настроения и интента на последующих этапах.
Cataloging emoji and emoticon usageUnicode handling and normalizationMapping tokens to sentiment scoresBuilding custom emoji lexiconsIntegrating signals into modelsУрок 3Пунктуация, сокращения и стратегии токенизации для английского текста поддержкиИсследуйте пунктуацию, сокращения и стратегии токенизации для английского текста поддержки. Мы сравним токенизаторы на основе правил и библиотек, обработаем пограничные случаи и согласуем токенизацию с требованиями моделей на последующих этапах.
Role of punctuation in support ticketsExpanding and normalizing contractionsRule-based vs statistical tokenizersHandling URLs and emojis in tokensTokenization for transformer modelsУрок 4Стемминг vs лемматизация: алгоритмы, библиотеки и когда применять каждыйСравните подходы стемминга и лемматизации, включая алгоритмы и библиотеки. Вы узнаете, когда применять каждый метод в рабочих процессах тикетов поддержки и как они влияют на размер словаря и поведение модели.
Rule-based and algorithmic stemmersDictionary-based lemmatizersLibrary choices and performanceImpact on vocabulary and sparsityTask-driven method selectionУрок 5Обработка ошибок орфографии, аббревиатур и сокращений специфичных для домена (коррекция орфографии, словари поиска)Исследуйте методы коррекции орфографии, расширения аббревиатур и нормализации сокращений специфичных для домена в тикетах. Вы комбинируете коррекцию орфографии, словари поиска и пользовательские правила, избегая вредных изменений ключевых сущностей и кодов.
Common error types in support textDictionary and edit-distance correctionCustom domain abbreviation lexiconsContext-aware correction strategiesProtecting entities and codesУрок 6Компромиссы удаления стоп-слов и настраиваемые списки стоп-слов для доменов тикетов поддержкиИсследуйте компромиссы удаления стоп-слов в доменах тикетов поддержки. Вы спроектируете настраиваемые списки стоп-слов, оцените их влияние на модели и обработаете функциональные слова специфичные для домена, которые могут нести тонкие интенты.
Standard vs domain stopword listsImpact on bag-of-words featuresEffect on embeddings and transformersConfigurable and layered stopword setsEvaluating removal with ablationУрок 7Основы нормализации текста: приведение к нижнему регистру, нормализация Unicode, обработка пробелов и переносов строкОхвачены основные шаги нормализации текста, такие как приведение к нижнему регистру, нормализация Unicode и очистка пробелов. Мы обсудим порядок операций, особенности языка и сохранение важных подсказок форматирования.
Lowercasing and case preservation rulesUnicode normalization formsHandling accents and special symbolsWhitespace and linebreak cleanupOrdering normalization operationsУрок 8Стратегии разделения данных: разделения по времени, стратифицированная выборка по теме/настроению и соображения вложенной кросс-валидацииИзучите стратегии разделения данных, адаптированные для временных и размеченных данных тикетов. Мы сравним разделения по времени, стратифицированную выборку по теме или настроению и вложенную кросс-валидацию для надежной оценки модели.
Holdout, k-fold, and temporal splitsStratification by topic and sentimentPreventing temporal data leakageNested cross-validation workflowsAligning splits with business goalsУрок 9Обработка URL, email-адресов, фрагментов кода и идентификаторов в тексте (маскирование vs сохранение)Изучите стратегии обработки URL, email-адресов, фрагментов кода и идентификаторов в тексте. Мы сравним маскирование, нормализацию и сохранение, фокусируясь на приватности, дедупликации и влиянии на производительность модели.
Detecting URLs and email patternsMasking versus normalization rulesRepresenting code snippets safelyHandling ticket and user identifiersPrivacy and leakage considerationsУрок 10Понимание схемы CSV и типов данных (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)Научитесь интерпретировать схемы CSV для наборов данных тикетов и назначать правильные типы данных. Мы охватим разбор идентификаторов, временных меток, булевых значений и текстовых полей, плюс проверки валидации, предотвращающие тонкие ошибки на последующих этапах.
Inspecting headers and sample rowsAssigning robust column data typesValidating timestamps and IDsDetecting malformed or mixed typesSchema validation in pipelinesУрок 11Техники обнаружения и количественной оценки пропущенных значений и шума меток (шаблоны пропусков, проверки согласованности меток, метрики межаннотаторов)Научитесь обнаруживать пропущенные значения и шум меток в наборах данных тикетов поддержки. Мы охватим шаблоны пропусков, проверки согласованности меток и метрики межаннотаторского согласия для количественной оценки качества меток и руководства решениями по очистке.
Types of missingness in ticket datasetsVisualizing missingness patternsDetecting inconsistent labelsInter-annotator agreement metricsHeuristics to flag label noiseУрок 12Создание воспроизводимых пайплайнов и версионирование очищенных наборов данных (контракты данных, хэширование)Научитесь строить воспроизводимые пайплайны предобработки и версионированные очищенные наборы данных. Мы охватим модульный дизайн пайплайна, управление конфигурацией, хэширование и контракты данных, которые поддерживают согласованность моделей, кода и данных со временем.
Designing modular preprocessing stepsConfiguration and parameter trackingHashing raw and processed datasetsData contracts and schema guaranteesLogging and audit trails for changesУрок 13Разбор дат/времени и обработка часовых поясов, вывод временных признаков (время суток, день недели, недавность)Поймите, как разбирать неоднородные поля дат и времени, обрабатывать часовые пояса и выводить временные признаки. Мы фокусируемся на надежном разборе, нормализации к каноническому времени и сконструированных признаках, таких как недавность и сезонность.
Parsing heterogeneous date formatsTimezone normalization strategiesHandling missing or invalid timestampsDeriving recency and age featuresDaypart, weekday, and seasonalityУрок 14Импьютация и обработка не-текстовых колонок (resolved, resolution_time_hours, channel) для моделированияИсследуйте импьютацию и предобработку не-текстовых колонок, таких как статус разрешения, время разрешения и канал. Мы обсудим стратегии кодирования, риски утечек и как согласовать эти признаки с текстом для моделирования.
Profiling non-text ticket columnsImputation for numeric durationsEncoding categorical status fieldsAvoiding target leakage in featuresJoint modeling with text signals