บทเรียนที่ 1การโหลดและตรวจสอบข้อมูลใน R: readr, data.table และแนวปฏิบัติที่ดีที่สุด read.csv; ตรวจสอบประเภทและโครงสร้างเรียนรู้การนำเข้าชุดข้อมูลการสมัครสมาชิกอย่างมีประสิทธิภาพใน R โดยใช้ readr, data.table และฟังก์ชันพื้นฐาน ตรวจสอบประเภทคอลัมน์และโครงสร้าง และทำการตรวจสอบเบื้องต้นเพื่อให้แน่ใจในคุณภาพข้อมูลก่อนการสร้างรุ่น
การนำเข้า CSV ด้วย readr และ data.tableการตั้งค่าประเภทคอลัมน์และการแยกวิเคราะห์วันที่การตรวจสอบโครงสร้างด้วย str(), glimpse(), summary()การตรวจจับปัญหาการแยกวิเคราะห์และปัญหาการเข้ารหัสการสุ่มตัวอย่างตารางขนาดใหญ่สำหรับการตรวจสอบด่วนบทเรียนที่ 2การตรวจจับและแก้ไข outlier: วิธี univariate และ multivariate, winsorizing, การแปลง และโค้ด R (dplyr, magrittr, robustbase)เรียนรู้การระบุและจัดการ outlier ในเมตริกการสมัครสมาชิกโดยใช้วิธี univariate และ multivariate ใช้ winsorizing และการแปลง และนำไปใช้ใน workflow ที่แข็งแกร่งใน R ด้วย dplyr, magrittr และฟังก์ชัน robustbase
กฎ outlier แบบ univariate และ boxplotsoutlier แบบ multivariate และ robust distanceการ winsorizing ค่าสุดขีดใน Rการแปลง log และ power สำหรับ heavy tailsการใช้ robustbase สำหรับ robust statisticsบทเรียนที่ 3คุณสมบัติการสมัครสมาชิกและตัวแปร temporal: เดือนนับจากสมัครสมาชิก, tenure buckets, รูปแบบการ续สมัคร, payment method flagsออกแบบคุณสมบัติการสมัครสมาชิก temporal เช่น เดือนนับจากสมัครสมาชิก, tenure buckets, รูปแบบการ续สมัครและการเลิกใช้บริการ และ payment method flags และคำนวณอย่างมีประสิทธิภาพใน R สำหรับการสร้างรุ่นการเลิกใช้บริการและ LTV ต่อไป
การคำนวณเดือนนับจากสมัครสมาชิกใน Rการสร้าง tenure buckets และ cohortsการสร้างรุ่น renewal และ churn cyclesPayment method flags และความเสถียรการจัดแนวคุณสมบัติ temporal กับวันที่ทำนายบทเรียนที่ 4การจัดการข้อมูลที่ขาดหาย: diagnostics, MCAR/MAR/MNAR reasoning, กลยุทธ์ imputation (mean/mode, predictive imputation, mice) และตัวอย่าง Rสำรวจวิธีการวินิจฉัยรูปแบบข้อมูลที่ขาดหาย เหตุผลเกี่ยวกับกลไก MCAR, MAR, MNAR และนำกลยุทธ์ imputation ที่ใช้ได้จริงใน R รวมถึง mean, mode และ predictive โดยใช้ mice และเครื่องมือที่เกี่ยวข้อง
การแสดงภาพรูปแบบ missingness ใน RMCAR, MAR, MNAR: แนวคิดและการทดสอบการ imputation แบบง่าย mean, median, modePredictive imputation ด้วย mice packageการจัดการ categorical และ date fields ที่ขาดหายบทเรียนที่ 5คุณสมบัติที่ได้มาสำหรับการวิเคราะห์การสมัครสมาชิก: session-based aggregates, recency-frequency-duration features (เช่น avg sessions/สัปดาห์, วันนับจากล็อกอินครั้งสุดท้าย)สร้างคุณสมบัติที่ได้มาสำหรับการวิเคราะห์การสมัครสมาชิกโดยการรวม session logs คำนวณ recency, frequency, duration metrics และสรุปกิจกรรมผู้ใช้ เช่น เฉลี่ย session ต่อสัปดาห์ และวันนับจากล็อกอินครั้งสุดท้าย
การรวม sessions ตามผู้ใช้และช่วงเวลาRecency, frequency, duration metricsเฉลี่ย sessions ต่อสัปดาห์และต่อเดือนวันนับจากล็อกอินและการซื้อครั้งสุดท้ายRolling windows และ trailing activityบทเรียนที่ 6การรวมพฤติกรรม: feature-usage ratios, สรุปเวลาในวัน/สัปดาห์, engagement decay metricsรวมสัญญาณพฤติกรรมเป็นคุณสมบัติที่กระชับ รวมถึง feature-usage ratios, สรุปเวลาในวันและวันในสัปดาห์ และ engagement decay metrics ที่จับการเปลี่ยนแปลงกิจกรรมผู้ใช้ตามเวลาในผลิตภัณฑ์การสมัครสมาชิก
จำนวนและอัตราส่วนการใช้งานคุณสมบัติรูปแบบเวลาในวันและวันในสัปดาห์ตัวบ่งชี้ความยาวและความลึกของ sessionEngagement decay และ half-life metricsความเสถียรและความผันผวนของพฤติกรรมบทเรียนที่ 7การเข้ารหัสตัวแปรหมวดหมู่: one-hot, ordinal encoding, target encoding พร้อม smoothing และการนำไปใช้ใน R (caret, vtreat)เชี่ยวชาญการเข้ารหัสตัวแปรหมวดหมู่ใน R โดยใช้ one-hot, ordinal และ target encoding พร้อม smoothing และนำไปใช้ด้วย caret, vtreat และ base R ในขณะที่หลีกเลี่ยง data leakage ใน modeling pipelines
One-hot และ dummy encoding ใน ROrdinal encoding สำหรับ ordered factorsTarget encoding พร้อม smoothing logicการใช้ vtreat สำหรับการเข้ารหัสที่ปลอดภัยการหลีกเลี่ยง leakage ในขั้นตอนการเข้ารหัสบทเรียนที่ 8การปรับสเกลคุณสมบัติและการแปลง: normalization, log transforms สำหรับตัวแปร skewed, box-cox ใน Rใช้การปรับสเกลคุณสมบัติและการแปลงใน R รวมถึง normalization, standardization, log transforms สำหรับตัวแปร skewed และ Box–Cox หรือ Yeo–Johnson เพื่อทำให้ variance เสถียรและปรับปรุงประสิทธิภาพรุ่น
เมื่อไหร่ควรปรับสเกลคุณสมบัติและเหตุผลCentering และ standardization ใน RMin–max และ robust scaling approachesLog transforms สำหรับ predictors ที่ skewedBox–Cox และ Yeo–Johnson ใน caretบทเรียนที่ 9การตรวจสอบข้อมูลและการจัดการข้อผิดพลาด: การตรวจจับค่าที่เป็นไปไม่ได้, ผู้ใช้ที่ซ้ำ, ความสอดคล้องของ timestampเข้าใจวิธีการตรวจจับค่าที่เป็นไปไม่ได้หรือไม่สอดคล้องในข้อมูลการสมัครสมาชิก จัดการบันทึกผู้ใช้ที่ซ้ำ และตรวจสอบ logic timestamp เพื่อให้ feature engineering และ modeling ต่อไปเชื่อถือได้และทำซ้ำได้
การตรวจสอบช่วงสำหรับ numeric และ date fieldsการตรวจจับ category combinations ที่เป็นไปไม่ได้การค้นหาและแก้ไข duplicate user recordsการตรวจสอบลำดับ timestamp และ overlapsการบันทึกและรายงานปัญหาการตรวจสอบ