수업 1범주형 변수 인코딩: 제품 카테고리와 지역에 대한 원-핫, 타겟/평균 인코딩 및 희귀 카테고리 처리예측 모델을 위한 범주형 변수 인코딩 실전 방법을 배웁니다. 제품과 지역에 대한 원-핫 및 타겟 인코딩, 희귀 레벨 처리, 타겟 기반 인코더 사용 시 누출 방지를 다룹니다.
안정적 카테고리에 대한 원-핫 인코딩고차원성에 대한 타겟 및 평균 인코딩희소 카테고리에 대한 빈도 인코딩희귀 카테고리 레벨 그룹화 및 풀링누출 방지 타겟 인코딩 절차수업 2시계열 데이터 분할: 시간 기반 훈련/검증/테스트 분할 전략, 롤링 윈도우, 시간 의존성을 위한 차단 교차 검증예측 평가를 위한 시간 인식 데이터 분할을 마스터합니다. 시간 순서를 존중하는 훈련, 검증, 테스트 분할 설계, 롤링 윈도우 사용, 실제 배포 조건을 모방하는 차단 교차 검증을 적용합니다.
시간 순서를 존중하는 홀드아웃 분할롤링 및 확장 윈도우 평가시계열을 위한 차단 교차 검증비즈니스 사이클과 분할 날짜 정렬분할 설계에서 룩어헤드 바이어스 방지수업 3마케팅 및 인과 피처: 지연된 마케팅 지출 생성, 상호작용 항목(마케팅 지출 × 할인율), 웹사이트 방문으로부터의 채널 귀속 프록시원시 마케팅 및 웹 데이터를 예측 피처로 변환하는 방법을 배웁니다. 지연된 마케팅 변수, 할인과의 상호작용 항목, 월간 판매에 대한 마케팅 영향을 더 잘 포착하는 채널 귀속 프록시를 다룹니다.
채널 및 캠페인별 지연 마케팅 지출마케팅 지출 × 할인율 상호작용 피처웹사이트 방문으로서의 채널 귀속 프록시마케팅 피처를 월간 판매에 정렬인과 피처에서 데이터 누출 방지수업 4계절성과 휴일 지표: 연-월, 분기, 주요 미국 휴일 플래그, 쇼핑 이벤트(블랙프라이데이, 사이버 먼데이) 및 프로모션 윈도우 구축계절성과 휴일 지표로 반복 패턴을 포착합니다. 월 및 분기 더미, 주요 미국 휴일 플래그, 쇼핑 이벤트 마커, 소매 판매 예측에 맞춘 프로모션 윈도우 지표를 구축합니다.
연-월 및 분기 더미 변수미국 연방 및 소매 휴일 플래그블랙프라이데이 및 사이버 먼데이 지표프로모션 윈도우 시작 및 종료 마커중첩된 휴일 및 프로모션 효과수업 5이상치 탐지 및 처리: 통계 규칙(IQR, z-점수), 비즈니스 규칙 필터, 윈저라이징 vs 트리밍, 이상치를 유지할 때판매 및 마케팅 데이터에서 이상치를 탐지하고 처리하는 방법을 이해합니다. 통계 규칙, 비즈니스 필터 적용, 윈저라이징 대 트리밍 비교, 극단값 유지의 분석적 정당성을 배웁니다.
박스플롯 및 시간 플롯으로 시각 검사IQR 및 z-점수 기반 이상치 규칙비현실적 값에 대한 비즈니스 규칙 필터극단점에 대한 윈저라이징 대 트리밍영향력 있는 이상치 유지 결정수업 6각 필드 해석: 월, 제품 카테고리, 지역, 판매 단위, 매출, 마케팅 지출, 웹사이트 방문, 할인율 및 파생 비즈니스 의미판매 데이터셋의 각 필드를 깊이 이해합니다. 월, 제품, 지역, 상업 지표를 해석하며 비즈니스 프로세스와 예측 목표에 어떻게 영향을 미치는지 연결합니다.
캘린더 월 및 예측 horizon 역할제품 카테고리 계층 및 품종지역 정의 및 시장 구조판매 단위, 매출, 가격 관계마케팅 지출, 방문, 할인율수업 7시간 인덱스 검증 및 캘린더 정렬: 월 경계 처리, 소매 캘린더 vs 캘린더 월, 윤년 및 일광 절약 시간 효과시간 인덱스를 검증하고 일관된 캘린더에 데이터를 정렬하는 방법을 배웁니다. 월 경계, 소매 대 표준 캘린더, 윤년, 일광 절약 효과가 시간 기반 피처 및 집계에 왜곡을 일으킬 수 있습니다.
시간 인덱스의 갭 및 중복 확인소매 월 대 캘린더 월 정렬월 집계에서 윤년 처리타임스탬프에서 일광 절약 시간 관리불일치 시간대 및 피드 조정수업 8피처 엔지니어링: 지연 피처 생성, 롤링 평균/중앙값, 변화율, 성장률, 누적 지표원시 판매 및 마케팅 데이터에서 강력한 피처를 개발합니다. 지연, 롤링 통계, 성장률, 누적 지표를 생성하여 월간 판매 행동의 모멘텀, 지속성, 구조적 패턴을 포착합니다.
판매 및 마케팅 신호에 대한 지연 피처롤링 평균, 중앙값, 롤링 합계월대월 및 연대연 성장누적 매출 및 판매 단위 지표엔지니어링된 피처의 안정성 확인수업 9데이터 품질 확인: 결측 탐지 및 프로파일링 방법, 결측 데이터 유형, 카테고리/지역별 결측 패턴 보고결측 및 불일치를 프로파일링하여 데이터 품질을 보장합니다. 결측 데이터 메커니즘 분류, 제품 및 지역별 패턴 탐지, 보간 및 상위 데이터 수정 가이드를 위한 보고서 설계를 배웁니다.
필드별 완전성 및 유효성 확인MCAR, MAR, MNAR 결측 유형시간 및 지역별 결측 히트맵제품 카테고리 및 채널별 결측소유자를 위한 데이터 품질 문제 문서화수업 10집계 및 세분화: 카테고리 × 월, 지역 × 월 집계, 다중 인덱스 피벗팅; 다운샘플링 및 업샘플링 고려사항시간 및 차원 전반에서 데이터를 집계하고 재구성하는 방법을 배웁니다. 카테고리 × 월 및 지역 × 월 뷰, 다중 인덱스 피벗팅, 일관된 모델 입력을 위한 다운/업샘플링 시기를 다룹니다.
모델링을 위한 기본 세분화 선택카테고리 × 월 및 지역 × 월 테이블다중 인덱스 피벗팅 및 언피벗팅일일 데이터를 월 수준으로 다운샘플링신중한 규칙으로 희소 시리즈 업샘플링