บทเรียนที่ 1กฎการตรวจสอบข้อมูล: ซ้ำ, referential integrity (ลูกค้า/สินค้า), ค่านอกช่วง, ราคา/จำนวนลบกำหนดกฎการตรวจสอบที่แข็งแกร่งเพื่อให้ไฟล์ CSV ขายสินค้าเชื่อถือได้ คุณจะตรวจจับข้อมูลซ้ำ บังคับ referential integrity และทำเครื่องหมายค่านอกช่วงหรือค่าลบก่อนที่มันจะทำให้แดชบอร์ดและโมเดล downstream เสียหาย
การตรวจจับคำสั่งซื้อซ้ำและรายการคำสั่งซื้อการตรวจสอบ referential integrity keysการตรวจสอบช่วงตัวเลขและเกณฑ์การจัดการราคาและจำนวนลบการสร้าง checklists การตรวจสอบที่ใช้ซ้ำได้บทเรียนที่ 2ความหมายของคอลัมน์: order_id, order_date, customer_id, customer_region, product_id, product_category, product_subcategory, quantity, unit_price, discount, revenue, cost, channelชี้แจงความหมายและบทบาทของคอลัมน์หลักที่ใช้ในแดชบอร์ด คุณจะแมพตัวระบุ วันที่ คุณสมบัติสินค้า จำนวน และฟิลด์การเงิน เพื่อให้มั่นใจในความหมายที่สอดคล้องกันในโมเดลและการแสดงผล
ตัวระบุระดับคำสั่งซื้อและการเลือก grainฟิลด์ระบุลูกค้าและภูมิภาคบทบาทของสินค้า หมวดหมู่ และหมวดย่อยจำนวน ราคาต่อหน่วย ส่วนลด และรายได้ต้นทุน ช่องทาง และฟิลด์ที่เกี่ยวข้องกับกำไรบทเรียนที่ 3การจัดการส่วนลดและการคำนวณราคา: คำนวณรายได้ใหม่จาก unit_price, quantity, discount และตรวจสอบกับรายได้ที่รายงานเข้าใจวิธีคำนวณและตรวจสอบรายได้และเมตริกราคา คุณจะคำนวณรายได้ต่อบรรทัดจาก unit_price, quantity, และ discount ตรวจสอบกับยอดรวมที่รายงาน และทำเครื่องหมายความไม่สอดคล้องสำหรับการตรวจสอบ
สูตรรายได้จาก unit_price และ quantityการใช้ส่วนลดเปอร์เซ็นต์และส่วนลดคงที่การตรวจสอบรายได้ที่คำนวณและรายงานการตรวจจับรูปแบบส่วนลดที่ไม่สอดคล้องการบันทึก logic ราคาและส่วนลดบทเรียนที่ 4การแปลงข้อมูลตามเวลา: แยกปี, ไตรมาส, เดือน, สัปดาห์, วันในสัปดาห์, หน้าต่างเลื่อน, ปฏิทินงบประมาณเข้าใจวิธีแปลงวันที่คำสั่งซื้อเป็นคุณสมบัติเวลาที่ร่ำรวยสำหรับการวิเคราะห์ คุณจะสร้างคุณสมบัติปฏิทินและงบประมาณ สร้างหน้าต่างเลื่อน และเตรียมฟิลด์เวลาที่สอดคล้องกันสำหรับแดชบอร์ดและโมเดล time-series
การแยกปี ไตรมาส เดือน และสัปดาห์การสร้างตัวบ่งชี้วันในสัปดาห์และวันหยุดสุดสัปดาห์การสร้างเมตริกหน้าต่างเลื่อนและเคลื่อนที่การใช้ปฏิทินงบประมาณและ offsetการจัดแนว time grains สำหรับแดชบอร์ดบทเรียนที่ 5การแปลงข้อมูลทำความสะอาด: ตัด, normalization case, มาตรฐาน label ภูมิภาคและช่องทางสำรวจขั้นตอนการทำความสะอาดที่ใช้ได้จริงเพื่อให้ไฟล์ CSV ขายสินค้าสดมีความสอดคล้องและพร้อมวิเคราะห์ คุณจะตัด whitespace ปรับ case ให้ปกติ และมาตรฐาน label ภูมิภาคและช่องทางเพื่อหลีกเลี่ยงซ้ำและ filter แดชบอร์ดที่เสีย
การตัด whitespace และตัวอักษรที่มองไม่เห็นCase normalization สำหรับ dimension ข้อความการมาตรฐาน taxonomy ภูมิภาคและช่องทางการรวม label ที่ใกล้เคียงซ้ำกันการบันทึกกฎการทำความสะอาดสำหรับใช้ซ้ำบทเรียนที่ 6เมตริกที่คำนวณได้และการแปลง: กำไร = รายได้ - ต้นทุน, profit_margin = กำไร / รายได้, gross_margin, AOV = รายได้ / จำนวนคำสั่งซื้อ, unit_total = quantity * unit_priceเรียนรู้การคำนวณเมตริกขายหลักจากฟิลด์ CSV ดิบ คุณจะคำนวณกำไร มาร์จิ้น AOV และยอดรวมต่อหน่วย ให้มั่นใจว่าสูตรสอดคล้อง บันทึกดี และสอดคล้องกับนิยามธุรกิจ
การคำนวณกำไรและ gross marginการคำนวณ profit_margin อย่างปลอดภัยการสร้าง AOV จากรายได้และคำสั่งซื้อยอดรวมต่อหน่วยจาก quantity และ unit_priceการจัดแนวเมตริกกับนิยามธุรกิจบทเรียนที่ 7เทคนิค ETL ที่ทำซ้ำได้: ขั้นตอนที่บันทึก สคริปต์ notebook และ checksums สำหรับความสมบูรณ์ในการนำเข้า CSVเรียนรู้การออกแบบ ETL pipeline ที่ทำซ้ำได้สำหรับ CSV ขายสินค้า คุณจะเขียนสคริปต์การแปลง ติดตามเวอร์ชัน ใช้ notebook สำหรับสำรวจ และใช้ checksums และขั้นตอนตรวจสอบเพื่อรับประกันความสมบูรณ์ในการนำเข้าตามเวลา
การเขียนสคริปต์แปลง CSV ที่ทำซ้ำได้การใช้ notebook สำหรับ ETL สำรวจการ versioning โค้ด ETL และการตั้งค่าChecksums และการตรวจสอบความสมบูรณ์ไฟล์การรัน ETL อัตโนมัติและ loggingบทเรียนที่ 8ค่าที่ขาดหายและรูปแบบ null: วิธีตรวจจับ กลยุทธ์ imputation และเมื่อไหร่ควร drop แถวเชี่ยวชาญเทคนิคตรวจจับและจัดการค่าที่ขาดหายหรือ null ใน CSV ขายสินค้า คุณจะวิเคราะห์รูปแบบ null เลือกกลยุทธ์ imputation ตัดสินใจเมื่อไหร่ควร drop แถว และบันทึกสมมติฐานเพื่อปกป้องเมตริก downstream
การวิเคราะห์ missingness ในคอลัมน์หลักการแสดงภาพรูปแบบ null และ correlationกลยุทธ์ imputation สำหรับฟิลด์ตัวเลขกลยุทธ์ imputation สำหรับฟิลด์ categoricalกฎการ drop แถวหรือคอลัมน์อย่างปลอดภัยบทเรียนที่ 9ประเภทข้อมูลและการ parse: รูปแบบวันที่ ประเภทตัวเลข encoding categorical การจัดการ string vs ตัวเลขเรียนรู้การ parse วันที่ ตัวเลข และหมวดหมู่ใน CSV ขายสินค้าให้ถูกต้อง คุณจะแยกแยะข้อความจากฟิลด์ตัวเลข ใช้การ parse ที่ตระหนัก locale และออกแบบ encoding categorical ที่เสถียรในการ refresh
การตรวจจับประเภทข้อมูลคอลัมน์ในการนำเข้า CSVการ parse วันที่ด้วยรูปแบบ locale หลายแบบการจัดการตัวคั่นตัวเลขและสัญลักษณ์เงินการออกแบบ encoding categorical ที่เสถียรการแปลงคอลัมน์ mixed-type อย่างปลอดภัยบทเรียนที่ 10การจัดการคำสั่งซื้อหลายบรรทัดและการรวมข้อมูลระดับคำสั่งซื้อ vs รายการคำสั่งซื้อเรียนรู้การจัดการคำสั่งซื้อที่ข้ามหลายบรรทัดใน CSV ขายสินค้า คุณจะแยกแยะ grain คำสั่งซื้อและรายการคำสั่งซื้อ รวมอย่างถูกต้อง และหลีกเลี่ยงการนับรายได้ จำนวน และส่วนลดสองครั้งในแดชบอร์ด
การระบุ grain คำสั่งซื้อ vs รายการคำสั่งซื้อการรวมรายได้ระดับคำสั่งซื้อการสรุปส่วนลดข้ามบรรทัดการหลีกเลี่ยงการนับสองครั้งในการ rollupการเลือกระดับ grain สำหรับเมตริกแดชบอร์ด