수업 1피처 스케일링과 변환: 왜곡된 매출/수량에 대한 로그 변환, 견고한 스케일링분산을 안정화하고 왜곡을 줄이기 위해 매출과 수량에 스케일링과 변환을 적용합니다. 로그 변환, 견고한 스케일링, 멱법칙 변환을 사용하며 필요시 해석 가능성을 보존합니다.
왜곡과 무거운 꼬리 진단로그 및 멱법칙 변환표준, 최소-최대, 견고한 스케일링sklearn을 사용한 스케일링 파이프라인해석을 위한 역변환수업 2날짜시간 피처 엔지니어링: 주중, 시간, 계절성, 최근성 및 근속 기간 피처 (주문일과 고객 이력에서)주문 날짜와 고객 이력에서 시간 기반 피처를 엔지니어링합니다. 주중, 시간, 계절성, 최근성, 근속 기간을 포함하며, 예측 및 분류 작업에서 누출을 피하기 위해 시간 순서를 존중합니다.
캘린더 기반 피처 추출시간 변수의 순환 인코딩계절성과 휴일 지표최근성과 근속 기간 피처 설계시간 인식 누출 방지수업 3수치형(중앙값, KNN, 모델 기반) 및 범주형 필드(최빈값, '알수없음')에 대한 보간 전략중앙값, KNN, 모델 기반, 최빈값, 명시적 '알수없음' 카테고리를 포함한 수치형 및 범주형 보간 전략을 비교합니다. 완성된 데이터셋의 편향, 분산, 견고성을 평가하는 진단을 포함합니다.
누락 메커니즘과 패턴간단한 수치 보간 방법KNN 및 모델 기반 보간범주형 최빈값과 '알수없음' 빈누락 지표 플래그 사용수업 4선택한 예측을 위한 타겟 변수 생성 (이진 반품, 연속 매출, 늦은 배송 레이블)주요 비즈니스 예측을 위한 타겟 변수를 정의하고 구성합니다. 이진 반품 플래그, 연속 매출, 늦은 배송 레이블을 포함하며, 명확한 정의와 평가 지표 정렬을 보장합니다.
예측 목표 선택반품 및 이탈 레이블 정의매출 및 마진 회귀 타겟늦은 배송 및 SLA 위반 레이블타겟을 지표와 정렬수업 5인코딩 기법: 원-핫, 타겟 인코딩, 빈도 인코딩, 고카디널리티 피처를 위한 임베딩범주형 변수에 대한 인코딩 방법을 탐색합니다. 간단한 원-핫에서 타겟, 빈도, 임베딩 기반 인코딩까지이며, 누출 방지, 정규화, 고카디널리티 피처 처리 지침을 포함합니다.
원-핫 인코딩 사용 시기누출 제어 타겟 인코딩빈도 및 카운트 인코딩해싱과 희귀 카테고리 처리범주를 위한 학습된 임베딩수업 6가격, 수량, 배송_시간_일, 매출에 대한 이상치 탐지 및 처리가격, 수량, 배송 시간, 매출에서 통계 규칙과 비즈니스 로직을 사용해 이상치를 탐지, 진단, 처리합니다. 정보 손실을 최소화하면서 다운스트림 모델을 불안정성으로부터 보호합니다.
단변량 이상치 탐지 규칙다변량 및 맥락 이상치캡핑, 트리밍, 윈저라이제이션비즈니스 규칙 기반 이상치 플래그모델 훈련에 대한 이상치 영향수업 7집계 및 고객 수준 피처: 과거 반품률, 평균 주문 가치, 빈도, 마지막 주문 이후 시간고객 수준 집계를 구축합니다. 과거 반품률, 평균 주문 가치, 구매 빈도, 최근성을 포함하여 고객 생애 행동을 포착하고 세분화 및 예측 성능을 향상시킵니다.
고객 수준 집계 설계과거 반품 및 불만률평균 주문 가치와 바스켓 크기구매 빈도와 최근성고객 생애가치 프록시수업 8프로모션 및 가격 피처: 실효_단가, 할인_비율, 할인_적용 플래그프로모션 및 가격 피처를 생성합니다. 실효 단가, 할인 비율, 할인 플래그를 포함하여 프로모션 강도, 마진 영향, 시간에 따른 고객 가격 민감도를 포착합니다.
실효 단가 계산할인 비율과 깊이이진 및 다단계 프로모 플래그중첩 및 겹치는 프로모션가격 탄력성 프록시 피처수업 9시계열/주문 데이터에 대한 훈련/테스트 분할 전략 (시간 기반 분할, 타겟 계층화, 고객 보류)시간 순서 거래 데이터에 대한 훈련 및 테스트 분할 전략을 설계합니다. 시간 기반 분할, 타겟 계층화, 고객 보류 방식을 사용하여 현실적이고 편향되지 않은 성능 추정을 얻습니다.
시간 데이터에서 무작위 분할의 함정시간 기반 및 롤링 윈도우 분할불균형 타겟을 위한 계층화 분할고객 및 매장 수준 보류시간 데이터 교차 검증수업 10지리 및 물류 피처: 국가 수준 지표, 배송 구역, 전형적인 배송_시간 분포국가 수준 지표, 배송 구역, 배송 시간 분포를 사용한 지리 및 물류 피처를 설계합니다. 운영 제약, 지역 행동, 서비스 수준 변동성을 예측 모델에 포착합니다.
국가 및 지역 수준 집계배송 구역 및 경로 정의배송 시간 분포 피처거리 및 국경 간 지표서비스 수준 및 SLA 피처수업 11범주형 변수 표준화 및 정제: 제품_카테고리, 국가, 마케팅_채널, 디바이스_타입제품 카테고리, 국가, 마케팅 채널, 디바이스 타입과 같은 범주형 변수를 표준화하고 정제합니다. 레이블 정규화, 희귀 수준 병합, 데이터셋 간 일관된 분류법 적용을 통해 처리합니다.
불일치 카테고리 레이블 탐지문자열 정규화와 매핑희귀 및 노이즈 카테고리 병합카테고리 분류법 유지범주형 정제 문서화