سبق 1ਚੈਨਲ ਮੈਟਾਡਾਟਾ ਨੂੰ ਹੈਂਡਲ ਕਰਨਾ (ਚੈਨਲ-ਵਿਸ਼ੇਸ਼ ਟੋਕਨ ਪੈਟਰਨ, ਮੈਟਾਡਾਟਾ ਐਨਕੋਡਿੰਗ)ਚੈਟ, ਈਮੇਲ ਅਤੇ ਫ਼ੋਨ ਲੌਗ ਵਰਗੇ ਚੈਨਲ ਮੈਟਾਡਾਟਾ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੇ ਤਰੀਕੇ ਨੂੰ ਸਮਝੋ। ਅਸੀਂ ਚੈਨਲ-ਵਿਸ਼ੇਸ਼ ਟੋਕਨ ਪੈਟਰਨ, ਐਨਕੋਡਿੰਗ ਰਣਨੀਤੀਆਂ ਅਤੇ ਟੈਕਸਟ ਨਾਲ ਮੈਟਾਡਾਟਾ ਨੂੰ ਜੋੜਨ ਨੂੰ ਘੇਰਦੇ ਹਾਂ ਜੋ ਵਧੇਰੇ ਅਮੀਰ ਮਾਡਲਿੰਗ ਲਈ।
Cataloging support channels and fieldsChannel-specific token patternsOne-hot and embedding encodingsCombining text and metadata featuresHandling missing channel metadataسبق 2ਇਮੋਜੀ, ਇਮੋਟੀਕੌਨ ਅਤੇ ਨਾਨ-ਸਟੈਂਡਰਡ ਟੋਕਨ ਹੈਂਡਲਿੰਗ ਅਤੇ ਭਾਵਨਾ ਸਿਗਨਲਾਂ ਨਾਲ ਮੈਪਿੰਗਭਾਵਨਾਵਾਂ, ਇਮੋਟੀਕੌਨਾਂ ਅਤੇ ਹੋਰ ਨਾਨ-ਸਟੈਂਡਰਡ ਟੋਕਨਾਂ ਨੂੰ ਨੌਰਮਲਾਈਜ਼ ਕਰਨ ਦੇ ਤਰੀਕੇ ਅਧਿਐਨ ਕਰੋ ਜਦੋਂ ਕਿ ਭਾਵਨਾ ਨੂੰ ਬਚਾਉਂਦੇ ਹੋਵੋ। ਅਸੀਂ ਮੈਪਿੰਗ ਰਣਨੀਤੀਆਂ, ਲੈਕਸੀਕੌਨਾਂ ਅਤੇ ਇਨ੍ਹਾਂ ਸਿਗਨਲਾਂ ਨੂੰ ਡਾਊਨਸਟ੍ਰੀਮ ਭਾਵਨਾ ਅਤੇ ਇਰਾਦੇ ਵਾਲੇ ਮਾਡਲਾਂ ਵਿੱਚ ਜੋੜਨ ਬਾਰੇ ਚਰਚਾ ਕਰਦੇ ਹਾਂ।
Cataloging emoji and emoticon usageUnicode handling and normalizationMapping tokens to sentiment scoresBuilding custom emoji lexiconsIntegrating signals into modelsسبق 3ਵਿਰਾਮ ਚਿੰਨ੍ਹ, ਸੰਖੇਪ ਅਤੇ ਅੰਗਰੇਜ਼ੀ ਸਪੋਰਟ ਟੈਕਸਟ ਲਈ ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਰਣਨੀਤੀਆਂਅੰਗਰੇਜ਼ੀ ਸਪੋਰਟ ਟੈਕਸਟ ਲਈ ਵਿਰਾਮ ਚਿੰਨ੍ਹ, ਸੰਖੇਪ ਅਤੇ ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਰਣਨੀਤੀਆਂ ਦੀ ਜਾਂਚ ਕਰੋ। ਅਸੀਂ ਰੂਲ-ਅਧਾਰਤ ਅਤੇ ਲਾਇਬ੍ਰੇਰੀ ਟੋਕਨਾਈਜ਼ਰਾਂ ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹਾਂ, ਐੱਜ ਕੇਸਾਂ ਨੂੰ ਹੈਂਡਲ ਕਰਦੇ ਹਾਂ ਅਤੇ ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ ਨੂੰ ਡਾਊਨਸਟ੍ਰੀਮ ਮਾਡਲ ਲੋੜਾਂ ਨਾਲ ਮੇਲ ਖਾਉਂਦੇ ਹਾਂ।
Role of punctuation in support ticketsExpanding and normalizing contractionsRule-based vs statistical tokenizersHandling URLs and emojis in tokensTokenization for transformer modelsسبق 4ਸਟੈਮਿੰਗ ਵਿਰੁੱਧ ਲੈਮੈਟਾਈਜ਼ੇਸ਼ਨ: ਅਲਗੋਰਿਦਮ, ਲਾਇਬ੍ਰੇਰੀਆਂ ਅਤੇ ਹਰ ਇੱਕ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦਾ ਸਮਾਂਸਟੈਮਿੰਗ ਅਤੇ ਲੈਮੈਟਾਈਜ਼ੇਸ਼ਨ ਤਰੀਕਿਆਂ ਦੀ ਤੁਲਨਾ ਕਰੋ, ਜਿਸ ਵਿੱਚ ਅਲਗੋਰਿਦਮ ਅਤੇ ਲਾਇਬ੍ਰੇਰੀਆਂ ਸ਼ਾਮਲ ਹਨ। ਤੁਸੀਂ ਸਪੋਰਟ ਟਿਕਟ ਵਰਕਫਲੋ ਵਿੱਚ ਹਰ ਵਿਧੀ ਨੂੰ ਕਦੋਂ ਲਾਗੂ ਕਰਨਾ ਹੈ ਅਤੇ ਇਹ ਵੋਕੈਬੂਲਰੀ ਆਕਾਰ ਅਤੇ ਮਾਡਲ ਵਿਵਹਾਰ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀਆਂ ਹਨ, ਇਹ ਸਿੱਖੋਗੇ।
Rule-based and algorithmic stemmersDictionary-based lemmatizersLibrary choices and performanceImpact on vocabulary and sparsityTask-driven method selectionسبق 5ਸਪੈਲਿੰਗ ਗਲਤੀਆਂ, ਸੰਖੇਪਾਂ ਅਤੇ ਡੋਮੇਨ-ਵਿਸ਼ੇਸ਼ ਸ਼ੌਰਟਹੈਂਡ ਨੂੰ ਹੈਂਡਲ ਕਰਨਾ (ਸਪੈਲ ਕਰੈਕਸ਼ਨ, ਲੁਕਅਪ ਡਿਕਸ਼ਨਰੀਆਂ)ਟਿਕਟਾਂ ਵਿੱਚ ਸਪੈਲਿੰਗ ਗਲਤੀਆਂ ਨੂੰ ਸਹੀ ਕਰਨ, ਸੰਖੇਪਾਂ ਨੂੰ ਵਧਾਉਣ ਅਤੇ ਡੋਮੇਨ ਸ਼ੌਰਟਹੈਂਡ ਨੂੰ ਨੌਰਮਲਾਈਜ਼ ਕਰਨ ਦੀਆਂ ਵਿਧੀਆਂ ਦੀ ਖੋਜ ਕਰੋ। ਤੁਸੀਂ ਸਪੈਲ ਕਰੈਕਸ਼ਨ, ਲੁਕਅਪ ਡਿਕਸ਼ਨਰੀਆਂ ਅਤੇ ਕਸਟਮ ਰੂਲਾਂ ਨੂੰ ਜੋੜੋਗੇ ਜਦੋਂ ਕਿ ਮੁੱਖ ਐਂਟਿਟੀਆਂ ਅਤੇ ਕੋਡਾਂ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਾਉਣ ਵਾਲੇ ਬਦਲਾਅ ਤੋਂ ਬਚੋਗੇ।
Common error types in support textDictionary and edit-distance correctionCustom domain abbreviation lexiconsContext-aware correction strategiesProtecting entities and codesسبق 6ਸਟੌਪਵਰਡ ਹਟਾਉਣ ਦੇ ਟ੍ਰੇਡਆਫ਼ ਅਤੇ ਸਪੋਰਟ ਟਿਕਟ ਡੋਮੇਨਾਂ ਲਈ ਕਨਫਿਗਰੇਬਲ ਸਟੌਪਵਰਡ ਲਿਸਟਾਂਸਪੋਰਟ ਟਿਕਟ ਡੋਮੇਨਾਂ ਵਿੱਚ ਸਟੌਪਵਰਡ ਹਟਾਉਣ ਦੇ ਟ੍ਰੇਡਆਫ਼ ਨੂੰ ਜਾਂਚੋ। ਤੁਸੀਂ ਕਨਫਿਗਰੇਬਲ ਸਟੌਪਵਰਡ ਲਿਸਟਾਂ ਡਿਜ਼ਾਈਨ ਕਰੋਗੇ, ਉਹਨਾਂ ਦੇ ਮਾਡਲਾਂ ਤੇ ਪ੍ਰਭਾਵ ਨੂੰ ਮੁਲਾਂਕਣ ਕਰੋਗੇ ਅਤੇ ਡੋਮੇਨ-ਵਿਸ਼ੇਸ਼ ਫੰਕਸ਼ਨ ਵਰਡਾਂ ਨੂੰ ਹੈਂਡਲ ਕਰੋਗੇ ਜੋ ਸੂਖਮ ਇਰਾਦੇ ਲਿਆਉਂਦੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ।
Standard vs domain stopword listsImpact on bag-of-words featuresEffect on embeddings and transformersConfigurable and layered stopword setsEvaluating removal with ablationسبق 7ਟੈਕਸਟ ਨੌਰਮਲਾਈਜ਼ੇਸ਼ਨ ਦੀਆਂ ਬੁਨਿਆਦੀਆਂ: ਲੋਅਰਕੇਸਿੰਗ, ਯੂਨੀਕੋਡ ਨੌਰਮਲਾਈਜ਼ੇਸ਼ਨ, ਵ੍ਹਾਈਟਸਪੇਸ ਅਤੇ ਲਾਈਨਬ੍ਰੇਕ ਹੈਂਡਲਿੰਗਲੋਅਰਕੇਸਿੰਗ, ਯੂਨੀਕੋਡ ਨੌਰਮਲਾਈਜ਼ੇਸ਼ਨ ਅਤੇ ਵ੍ਹਾਈਟਸਪੇਸ ਅਤੇ ਲਾਈਨਬ੍ਰੇਕ ਹੈਂਡਲਿੰਗ ਵਰਗੇ ਕੋਰ ਟੈਕਸਟ ਨੌਰਮਲਾਈਜ਼ੇਸ਼ਨ ਕਦਮਾਂ ਨੂੰ ਘੇਰੋ। ਅਸੀਂ ਓਪਰੇਸ਼ਨਾਂ ਦੇ ਕ੍ਰਮ, ਭਾਸ਼ਾ-ਵਿਸ਼ੇਸ਼ ਸਾਵਧਾਨੀਆਂ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਫਾਰਮੈਟਿੰਗ ਕਿਊਜ਼ ਨੂੰ ਬਚਾਉਣ ਬਾਰੇ ਚਰਚਾ ਕਰਦੇ ਹਾਂ।
Lowercasing and case preservation rulesUnicode normalization formsHandling accents and special symbolsWhitespace and linebreak cleanupOrdering normalization operationsسبق 8ਡਾਟਾ ਸਪਲਿਟਿੰਗ ਰਣਨੀਤੀਆਂ: ਸਮੇਂ-ਅਧਾਰਤ ਸਪਲਿਟਾਂ, ਵਿਸ਼ੇ/ਭਾਵਨਾ ਅਨੁਸਾਰ ਸਟ੍ਰੈਟੀਫਾਈਡ ਸੈਂਪਲਿੰਗ, ਅਤੇ ਨੈਸਟਡ ਕਰੌਸ-ਵੈਲੀਡੇਸ਼ਨ ਵਿਚਾਰਸਮੇਂ ਅਤੇ ਲੇਬਲਡ ਟਿਕਟ ਡਾਟਾ ਲਈ ਢੁਕਵੀਂ ਡਾਟਾ ਸਪਲਿਟਿੰਗ ਰਣਨੀਤੀਆਂ ਦਾ ਅਧਿਐਨ ਕਰੋ। ਅਸੀਂ ਸਮੇਂ-ਅਧਾਰਤ ਸਪਲਿਟਾਂ, ਵਿਸ਼ੇ ਜਾਂ ਭਾਵਨਾ ਅਨੁਸਾਰ ਸਟ੍ਰੈਟੀਫਾਈਡ ਸੈਂਪਲਿੰਗ ਅਤੇ ਮਜ਼ਬੂਤ ਮਾਡਲ ਮੁਲਾਂਕਣ ਲਈ ਨੈਸਟਡ ਕਰੌਸ-ਵੈਲੀਡੇਸ਼ਨ ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹਾਂ।
Holdout, k-fold, and temporal splitsStratification by topic and sentimentPreventing temporal data leakageNested cross-validation workflowsAligning splits with business goalsسبق 9ਟੈਕਸਟ ਵਿੱਚ URL, ਈਮੇਲ ਪਤੇ, ਕੋਡ ਸਨਿਪਟਸ ਅਤੇ ਪਛਾਣਕਾਰ ਨੂੰ ਹੈਂਡਲ ਕਰਨਾ (ਮਾਸਕਿੰਗ ਵਿਰੁੱਧ ਬਚਾਉਣਾ)ਟੈਕਸਟ ਵਿੱਚ URL, ਈਮੇਲ ਪਤੇ, ਕੋਡ ਸਨਿਪਟਸ ਅਤੇ ਪਛਾਣਕਾਰ ਨੂੰ ਹੈਂਡਲ ਕਰਨ ਲਈ ਰਣਨੀਤੀਆਂ ਸਿੱਖੋ। ਅਸੀਂ ਮਾਸਕਿੰਗ, ਨੌਰਮਲਾਈਜ਼ੇਸ਼ਨ ਅਤੇ ਬਚਾਉਣ ਵਾਲੀਆਂ ਚੋਣਾਂ ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹਾਂ, ਗੋਪਨੀਯਤਾ, ਡੁਪਲੀਕੇਸ਼ਨ ਅਤੇ ਮਾਡਲ ਪਰਫਾਰਮੈਂਸ ਪ੍ਰਭਾਵਾਂ ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦੇ ਹੋਏ।
Detecting URLs and email patternsMasking versus normalization rulesRepresenting code snippets safelyHandling ticket and user identifiersPrivacy and leakage considerationsسبق 10CSV ਸਕੀਮਾ ਅਤੇ ਡਾਟਾ ਤਰ੍ਹਾਂ ਨੂੰ ਸਮਝਣਾ (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)ਟਿਕਟ ਡਾਟਾਸੈੱਟਾਂ ਲਈ CSV ਸਕੀਮਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਸਹੀ ਡਾਟਾ ਤਰ੍ਹਾਂ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਸਿੱਖੋ। ਅਸੀਂ ਪਛਾਣਕਾਰਾਂ, ਟਾਈਮਸਟੈਂਪਾਂ, ਬੂਲੀਅਨ ਅਤੇ ਟੈਕਸਟ ਫੀਲਡਾਂ ਨੂੰ ਪਾਰਸ ਕਰਨਾ ਘੇਰਦੇ ਹਾਂ, ਬਲੱਕ ਡਾਊਨਸਟ੍ਰੀਮ ਗਲਤੀਆਂ ਨੂੰ ਰੋਕਣ ਵਾਲੀਆਂ ਵੈਲੀਡੇਸ਼ਨ ਚੈਕਾਂ ਨਾਲ।
Inspecting headers and sample rowsAssigning robust column data typesValidating timestamps and IDsDetecting malformed or mixed typesSchema validation in pipelinesسبق 11ਗੁੰਮ ਮੁੱਲਾਂ ਅਤੇ ਲੇਬਲ ਨੌਇਜ਼ ਨੂੰ ਡਿਟੈਕਟ ਅਤੇ ਮਾਪਣ ਦੀਆਂ ਤਕਨੀਕਾਂ (ਗੁੰਮਤਾ ਪੈਟਰਨ, ਲੇਬਲ ਇਕਸੁਰਤੀ ਚੈਕ, ਇੰਟਰ-ਐਨੋਟੇਟਰ ਮੈਟ੍ਰਿਕਸ)ਸਪੋਰਟ ਟਿਕਟ ਡਾਟਾਸੈੱਟਾਂ ਵਿੱਚ ਗੁੰਮ ਮੁੱਲਾਂ ਅਤੇ ਲੇਬਲ ਨੌਇਜ਼ ਨੂੰ ਡਿਟੈਕਟ ਅਤੇ ਮਾਪਣ ਲਈ ਤਕਨੀਕਾਂ ਸਿੱਖੋ। ਅਸੀਂ ਗੁੰਮਤਾ ਪੈਟਰਨ, ਲੇਬਲ ਇਕਸੁਰਤੀ ਚੈਕਾਂ ਅਤੇ ਇੰਟਰ-ਐਨੋਟੇਟਰ ਸਹਿਮਤੀ ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਘੇਰਦੇ ਹਾਂ ਜੋ ਲੇਬਲ ਗੁਣਵੱਤਾ ਨੂੰ ਮਾਪਣ ਅਤੇ ਕਲੀਨਿੰਗ ਫੈਸਲਿਆਂ ਲਈ ਗਾਈਡ ਕਰਦੇ ਹਨ।
Types of missingness in ticket datasetsVisualizing missingness patternsDetecting inconsistent labelsInter-annotator agreement metricsHeuristics to flag label noiseسبق 12ਰੀਪ੍ਰੋਡਿਊਸੀਬਲ ਪਾਈਪਲਾਈਨਾਂ ਬਣਾਉਣਾ ਅਤੇ ਕਲੀਨਡ ਡਾਟਾਸੈੱਟਾਂ ਨੂੰ ਵਰਜ਼ਨਿੰਗ ਕਰਨਾ (ਡਾਟਾ ਕਾਂਟ੍ਰੈਕਟਸ, ਹੈਸ਼ਿੰਗ)ਰੀਪ੍ਰੋਡਿਊਸੀਬਲ ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਪਾਈਪਲਾਈਨਾਂ ਅਤੇ ਵਰਜ਼ਨਡ ਕਲੀਨਡ ਡਾਟਾਸੈੱਟ ਬਣਾਉਣ ਲਈ ਸਿੱਖੋ। ਅਸੀਂ ਮਾਡਿਊਲਰ ਪਾਈਪਲਾਈਨ ਡਿਜ਼ਾਈਨ, ਕਨਫਿਗਰੇਸ਼ਨ ਮੈਨੇਜਮੈਂਟ, ਹੈਸ਼ਿੰਗ ਅਤੇ ਡਾਟਾ ਕਾਂਟ੍ਰੈਕਟਸ ਨੂੰ ਘੇਰਦੇ ਹਾਂ ਜੋ ਸਮੇਂ ਨਾਲ ਮਾਡਲਾਂ, ਕੋਡ ਅਤੇ ਡਾਟਾ ਨੂੰ ਮੇਲ ਖੁਆਉਂਦੇ ਹਨ।
Designing modular preprocessing stepsConfiguration and parameter trackingHashing raw and processed datasetsData contracts and schema guaranteesLogging and audit trails for changesسبق 13ਤਾਰੀਖ/ਸਮੇਂ ਪਾਰਸਿੰਗ ਅਤੇ ਟਾਈਮਜ਼ੋਨ ਹੈਂਡਲਿੰਗ, ਸਮੇਂ ਸੰਬੰਧੀ ਫੀਚਰ ਨਿਕਾਲਣਾ (ਦਿਨ ਦਾ ਹਿੱਸਾ, ਹਫ਼ਤੇ ਦਾ ਦਿਨ, ਰੀਸੈਂਸੀ)ਵੱਖ-ਵੱਖ ਤਾਰੀਖ ਅਤੇ ਸਮੇਂ ਫੀਲਡਾਂ ਨੂੰ ਪਾਰਸ ਕਰਨ, ਟਾਈਮਜ਼ੋਨ ਨੂੰ ਹੈਂਡਲ ਕਰਨ ਅਤੇ ਸਮੇਂ ਸੰਬੰਧੀ ਫੀਚਰਾਂ ਨੂੰ ਨਿਕਾਲਣ ਦੇ ਤਰੀਕੇ ਸਮਝੋ। ਅਸੀਂ ਮਜ਼ਬੂਤ ਪਾਰਸਿੰਗ, ਕੈਨਾਨੀਕਲ ਸਮੇਂ ਤੱਕ ਨੌਰਮਲਾਈਜ਼ੇਸ਼ਨ ਅਤੇ ਰੀਸੈਂਸੀ ਅਤੇ ਸੀਜ਼ਨੈਲਿਟੀ ਵਰਗੇ ਇੰਜੀਨੀਅਰਡ ਫੀਚਰਾਂ ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦੇ ਹਾਂ।
Parsing heterogeneous date formatsTimezone normalization strategiesHandling missing or invalid timestampsDeriving recency and age featuresDaypart, weekday, and seasonalityسبق 14ਮਾਡਲਿੰਗ ਲਈ ਨਾਨ-ਟੈਕਸਟ ਕਾਲਮਾਂ (ਰੈਜ਼ੋਲੂਡ, ਰੈਜ਼ੋਲੂਸ਼ਨ_ਟਾਈਮ_ਅਵਰਜ਼, ਚੈਨਲ) ਦੀ ਇੰਪਿਊਟੇਸ਼ਨ ਅਤੇ ਇਲਾਜਰੈਜ਼ੋਲੂਸ਼ਨ ਸਟੇਟਸ, ਰੈਜ਼ੋਲੂਸ਼ਨ ਸਮੇਂ ਅਤੇ ਚੈਨਲ ਵਰਗੇ ਨਾਨ-ਟੈਕਸਟ ਕਾਲਮਾਂ ਲਈ ਇੰਪਿਊਟੇਸ਼ਨ ਅਤੇ ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਦੀ ਖੋਜ ਕਰੋ। ਅਸੀਂ ਐਨਕੋਡਿੰਗ ਰਣਨੀਤੀਆਂ, ਲੀਕੇਜ ਜੋਖਮਾਂ ਅਤੇ ਇਹਨਾਂ ਫੀਚਰਾਂ ਨੂੰ ਟੈਕਸਟ ਨਾਲ ਮਾਡਲਿੰਗ ਲਈ ਮੇਲ ਖਾਉਣ ਬਾਰੇ ਚਰਚਾ ਕਰਦੇ ਹਾਂ।
Profiling non-text ticket columnsImputation for numeric durationsEncoding categorical status fieldsAvoiding target leakage in featuresJoint modeling with text signals