수업 1스케일링 및 변환: 표준화, min-max, 왜곡된 피처를 위한 로그 변환모델을 위한 숫자 피처의 스케일링과 변환을 이해합니다. 표준화, min-max 스케일링, 로그 변환을 적용하고, 왜곡된 분포를 처리하며, 정보를 누출시키지 않고 스케일러를 파이프라인에 통합합니다.
모델에서 스케일링이 필요한 경우StandardScaler 및 z-점수 직관MinMaxScaler 및 피처 범위왜곡을 위한 로그 및 거듭제곱 변환이상치 저항을 위한 견고한 스케일링훈련 데이터에만 스케일러 피팅수업 2이상치 탐지 및 처리: 통계적 IQR, z-점수, 도메인 임계값, 상한 설정표 형식 데이터에서 이상치를 탐지하고 처리하는 방법을 배웁니다. IQR 및 z-점수 규칙, 도메인 임계값, 시각화를 사용하고, 상한 설정, 변환, 제거 전략을 비교하며 신호를 보존하고 누출을 피합니다.
박스플롯으로 이상치 시각화실제 적용에서의 IQR 규칙 및 Tukey 울타리z-점수를 기반으로 한 이상치 탐지도메인 임계값 및 비즈니스 규칙상한 설정 및 winsorization 기술이상치가 모델 및 메트릭에 미치는 영향수업 3pandas와 NumPy를 사용한 데이터 로딩 및 검사 (dtypes, head, describe)pandas와 NumPy를 사용하여 데이터를 로딩, 검사, 건전성 확인하는 방법을 배웁니다. dtype, 결측값, 분포, 기본 통계를 검사하고, 명백한 데이터 문제를 탐지하며, 모델링을 위한 깨끗하고 잘 타입화된 데이터프레임을 생성합니다.
CSV 및 Parquet 효율적 읽기dtype 이해 및 타입 캐스팅head, sample, tail을 사용한 확인describe, value_counts, 기본 통계명백한 데이터 품질 문제 탐지메모리 사용량 및 다운캐스팅 전략수업 4데이터 파이프라인 및 재현성: scikit-learn Pipelines, joblib으로 전처리기 저장scikit-learn Pipelines를 사용하여 재현 가능한 전처리 워크플로우를 구축합니다. 변환기를 체인으로 연결하고, fit과 transform을 분리하며, joblib으로 전처리기를 지속하고, 일관된 훈련 및 추론 동작을 보장합니다.
scikit-learn Pipeline 객체 기본혼합 피처 유형을 위한 ColumnTransformerfit 및 transform을 가진 사용자 정의 변환기joblib으로 파이프라인 및 단계 지속데이터, 코드, 파라미터 버전 관리파이프라인 동작 엔드투엔드 테스트수업 5훈련-테스트 분할 전략: 랜덤, 시간 기반 분할, 불균형 타겟을 위한 층화공정한 모델 평가를 위한 데이터 분할 방법을 이해합니다. 랜덤 및 시간 기반 분할을 비교하고, 불균형 타겟에 층화를 적용하며, 누출을 피하고 실제 배포 시나리오에 맞는 분할을 설계합니다.
랜덤 훈련-테스트 및 검증 분할시간 데이터셋을 위한 시간 기반 분할불균형 타겟을 위한 층화 분할타겟 및 시간 누출 방지표 데이터용 교차 검증 방식배포 설정에 맞춘 분할 정렬수업 6결측값 전략: 대체 방법, 삭제 vs 플래그, 도메인 인식 결정결측값 처리를 위한 원칙적인 전략을 탐구합니다. 결측 패턴을 분석하고, 삭제 대 대체 결정을 비교하며, 숫자 및 범주형 대체기를 적용하고, 결측 플래그를 추가하며, 도메인 지식을 사용하여 선택을 안내합니다.
결측 유형 및 패턴행 또는 컬럼 안전하게 삭제숫자 대체: 평균, 중앙값, 모델범주형 대체 및 신규 범주피처로서의 결측 지표 플래그도메인 중심 대체 결정수업 7사용자 행동을 위한 피처 엔지니어링: 카운트, 최근성, 빈도, 평균, 비율파이썬에서 견고한 사용자 행동 피처를 엔지니어링하는 방법을 배웁니다. 카운트, 최근성, 빈도, 평균, 비율을 계산하고, 왜곡과 희소성을 처리하며, 파생 피처가 안정적이고 해석 가능하며 예측적인지 검증합니다.
이벤트 카운트 피처 및 집계 윈도우최근성 및 빈도 피처 계산평균값 및 강도 메트릭행동 혼합을 위한 비율 및 점유율 피처희소성 및 희귀 행동 패턴 처리엔지니어링된 피처의 안정성 검증수업 8시간적 및 세션화 전처리: 세션 피처 도출, 시간 윈도우행동 데이터의 시간적 전처리와 세션화를 배웁니다. 세션을 정의하고, 시간 윈도우를 구축하며, 세션 수준 피처를 도출하고, 시간대와 간격을 처리하며, 다운스트림 모델을 위한 시간 인식 입력을 준비합니다.
타임스탬프 파싱 및 정규화비활성 간격으로 세션 정의롤링 및 슬라이딩 시간 윈도우세션 피처로 이벤트 집계시간대 및 일광 절약 시간 변화 처리시간 피처에서의 레이블 누출수업 9범주형 피처 인코딩: 원-핫, 순서형, 타겟 인코딩 가이드라인 및 함정머신러닝을 위한 범주형 변수 인코딩을 익힙니다. 원-핫, 순서형, 타겟 인코딩을 적용하고, 모델 유형과 카디널리티에 따라 인코더를 선택하며, 누출, 과적합, 피처 공간 폭발을 피합니다.
원-핫 인코딩 사용 시기순서형 인코딩 및 순서 함정누출 제어를 통한 타겟 인코딩높은 카디널리티 범주 처리모델 계열에 따른 인코딩 선택추론 시 보이지 않는 범주 처리