수업 1채널 메타데이터 처리 (채널별 토큰 패턴, 메타데이터 인코딩)채팅, 이메일, 전화 로그 등의 채널 메타데이터를 처리하는 방법을 이해합니다. 채널별 토큰 패턴, 인코딩 전략, 텍스트와 메타데이터를 결합하여 더 풍부한 모델링을 수행하는 방법을 다룹니다.
지원 채널 및 필드 목록화채널별 토큰 패턴원-핫 및 임베딩 인코딩텍스트와 메타데이터 피처 결합누락된 채널 메타데이터 처리수업 2이모지, 감정 표현, 비표준 토큰 처리 및 감정 신호 매핑감정을 보존하면서 이모지, 감정 표현, 기타 비표준 토큰을 정규화하는 방법을 연구합니다. 매핑 전략, 사전, 이러한 신호를 하위 감정 및 의도 모델에 통합하는 방법을 논의합니다.
이모지 및 감정 표현 사용 목록화유니코드 처리 및 정규화토큰을 감정 점수로 매핑커스텀 이모지 사전 구축모델에 신호 통합수업 3영어 지원 텍스트를 위한 구두점, 축약어, 토큰화 전략영어 지원 텍스트의 구두점, 축약어, 토큰화 전략을 검토합니다. 규칙 기반 및 라이브러리 토크나이저를 비교하고, 엣지 케이스를 처리하며, 하위 모델 요구사항에 맞춘 토큰화를 수행합니다.
지원 티켓에서 구두점 역할축약어 확장 및 정규화규칙 기반 vs 통계적 토크나이저토큰 내 URL 및 이모지 처리트랜스포머 모델을 위한 토큰화수업 4어간 추출 vs 표제어 추출: 알고리즘, 라이브러리, 적용 시기어간 추출과 표제어 추출 접근법을 비교하며, 알고리즘과 라이브러리를 다룹니다. 지원 티켓 워크플로우에서 각 방법을 언제 적용할지, 어휘 크기와 모델 동작에 미치는 영향을 배웁니다.
규칙 기반 및 알고리즘 어간 추출기사전 기반 표제어 추출기라이브러리 선택 및 성능어휘 및 희소성 영향작업 중심 방법 선택수업 5맞춤법 오류, 약어, 도메인별 축약어 처리 (맞춤법 수정, 조회 사전)티켓에서 맞춤법 수정, 약어 확장, 도메인 축약어를 정규화하는 방법을 탐구합니다. 맞춤법 수정, 조회 사전, 커스텀 규칙을 결합하면서 핵심 엔티티와 코드에 해로운 변경을 피합니다.
지원 텍스트의 일반 오류 유형사전 및 편집 거리 수정커스텀 도메인 약어 사전문맥 인식 수정 전략엔티티 및 코드 보호수업 6불용어 제거 트레이드오프 및 지원 티켓 도메인용 구성 가능한 불용어 목록지원 티켓 도메인에서 불용어 제거의 트레이드오프를 검토합니다. 구성 가능한 불용어 목록을 설계하고, 모델에 미치는 영향을 평가하며, 미묘한 의도를 전달할 수 있는 도메인별 기능어를 처리합니다.
표준 vs 도메인 불용어 목록백 오브 워즈 피처 영향임베딩 및 트랜스포머 영향구성 가능 및 계층적 불용어 세트제거 평가를 위한 어블레이션수업 7텍스트 정규화 기초: 소문자 변환, 유니코드 정규화, 공백 및 줄바꿈 처리소문자 변환, 유니코드 정규화, 공백 정리 등 핵심 텍스트 정규화 단계를 다룹니다. 작업 순서, 언어별 주의사항, 중요한 서식 단서를 보존하는 방법을 논의합니다.
소문자 변환 및 대문자 보존 규칙유니코드 정규화 형태악센트 및 특수 기호 처리공백 및 줄바꿈 정리정규화 작업 순서수업 8데이터 분할 전략: 시간 기반 분할, 주제/감정별 층화 샘플링, 중첩 교차 검증 고려사항시간적 및 레이블이 지정된 티켓 데이터에 맞춘 데이터 분할 전략을 연구합니다. 시간 기반 분할, 주제 또는 감정별 층화 샘플링, 견고한 모델 평가를 위한 중첩 교차 검증을 비교합니다.
홀드아웃, k-폴드, 시간 분할주제 및 감정별 층화시간 데이터 유출 방지중첩 교차 검증 워크플로우비즈니스 목표와 분할 정렬수업 9텍스트 내 URL, 이메일 주소, 코드 조각, 식별자 처리 (마스킹 vs 보존)텍스트 내 URL, 이메일, 코드 조각, 식별자를 처리하는 전략을 배웁니다. 마스킹, 정규화, 보존 선택을 비교하며, 개인정보 보호, 중복 제거, 모델 성능 영향을 중점적으로 다룹니다.
URL 및 이메일 패턴 탐지마스킹 vs 정규화 규칙코드 조각 안전 표현티켓 및 사용자 식별자 처리개인정보 보호 및 유출 고려사항수업 10CSV 스키마 및 데이터 타입 이해 (ticket_id, created_at, customer_id, text, channel, resolved, resolution_time_hours, manual_topic, manual_sentiment)티켓 데이터셋의 CSV 스키마를 해석하고 올바른 데이터 타입을 지정하는 법을 배웁니다. 식별자, 타임스탬프, 불리언, 텍스트 필드 파싱과 하위 오류를 방지하는 검증 체크를 다룹니다.
헤더 및 샘플 행 검사견고한 열 데이터 타입 지정타임스탬프 및 ID 검증잘못된 또는 혼합 타입 탐지파이프라인 내 스키마 검증수업 11누락값 및 레이블 노이즈 탐지 및 정량화 기술 (누락 패턴, 레이블 일관성 체크, 어노테이터 간 메트릭)지원 티켓 데이터셋에서 누락값과 노이즈 레이블을 탐지하는 법을 배웁니다. 누락 패턴, 레이블 일관성 체크, 어노테이터 간 합의 메트릭을 통해 레이블 품질을 정량화하고 정제 결정을 안내합니다.
티켓 데이터셋의 누락 유형누락 패턴 시각화불일치 레이블 탐지어노테이터 간 합의 메트릭레이블 노이즈 플래그 히유리스틱수업 12재현 가능한 파이프라인 생성 및 정제 데이터셋 버전 관리 (데이터 계약, 해싱)재현 가능한 전처리 파이프라인과 버전 관리된 정제 데이터셋을 구축하는 법을 배웁니다. 모듈러 파이프라인 설계, 구성 관리, 해싱, 데이터 계약을 통해 모델, 코드, 데이터 정렬을 유지합니다.
모듈러 전처리 단계 설계구성 및 파라미터 추적원시 및 처리 데이터셋 해싱데이터 계약 및 스키마 보장변경 로깅 및 감사 추적수업 13날짜/시간 파싱 및 타임존 처리, 시간적 피처 도출 (시간대, 평일, 최근성)이질적인 날짜 및 시간 필드를 파싱하고, 타임존을 처리하며, 시간적 피처를 도출하는 방법을 이해합니다. 견고한 파싱, 표준 시간 정규화, 최근성 및 계절성 등의 엔지니어링 피처에 중점을 둡니다.
이질적인 날짜 형식 파싱타임존 정규화 전략누락 또는 잘못된 타임스탬프 처리최근성 및 연령 피처 도출시간대, 평일, 계절성수업 14모델링을 위한 비텍스트 열 보간 및 처리 (resolved, resolution_time_hours, channel)해결 상태, 해결 시간, 채널 등의 비텍스트 열에 대한 보간 및 전처리를 탐구합니다. 인코딩 전략, 유출 위험, 텍스트와 피처를 모델링에 맞추는 방법을 논의합니다.
비텍스트 티켓 열 프로파일링숫자 지속시간 보간범주형 상태 필드 인코딩피처에서 타겟 유출 방지텍스트 신호와 공동 모델링