บทเรียนที่ 1การเลือก storage formats และ compression สำหรับแต่ละ zone: trade-offs สำหรับ schema evolution และ query performanceเรียนรู้การเลือก file formats และ compression ตาม zone โดย balance schema evolution, cost และ query speed เปรียบเทียบ Parquet, Avro, ORC, JSON และ CSV และเข้าใจ columnar storage, predicate pushdown และ encoding
Row vs columnar storage formatsการเลือก formats ตาม data lake zoneCompression codecs และ settingsผลกระทบต่อ query performanceSchema evolution implicationsCost และ storage optimizationบทเรียนที่ 2Multi-layer modeling patterns: raw, normalized staging, canonical curated layer, dimensional star schemasเรียนรู้ multi-layer modeling patterns จาก raw ingestion ถึง curated analytics สำรวจ normalized staging, canonical models และ dimensional star schemas และดูว่าแต่ละ layer รองรับ governance, reuse และ performance อย่างไร
Raw layer modeling principlesNormalized staging layer designCanonical curated layer modelsDimensional star schema basicsBridge และ helper tablesEnd-to-end lineage across layersบทเรียนที่ 3การนำทาง transformations: ETL vs ELT, dbt principles สำหรับ transformations ใน warehouse, orchestration ของ streaming stateful jobsเข้าใจการ implement transformations โดยใช้ ETL และ ELT patterns เรียนรู้ dbt concepts สำหรับ warehouse-centric modeling และการ orchestrate batch และ streaming jobs รวมถึง stateful stream processing และ dependency management
ETL vs ELT architecture choicesdbt models, tests และ docsIncremental และ snapshot patternsการ orchestrate batch pipelinesStateful streaming job designMonitoring และ failure recoveryบทเรียนที่ 4Data quality frameworks: expectations, tests, anomaly detection, checksums, row count reconciliationสำรวจ data quality frameworks ที่ทำให้ pipeline เชื่อถือได้ เรียนรู้การกำหนด expectations, implement tests, detect anomalies และใช้ checksums และ row count reconciliation เพื่อรับประกัน completeness, accuracy และ timeliness
การกำหนด data quality dimensionsRule-based expectations และ testsAnomaly และ drift detectionChecksums และ hash totalsRow count และ balance checksAlerting และ incident handlingบทเรียนที่ 5Data lake organization และ zones: raw, transient/staging, curated/consumption และ archival policiesสำรวจการออกแบบ data lake zones จาก raw ถึง curated และ archival เรียนรู้ folder layout, partitioning, governance, retention และ access patterns ที่รองรับ analytics, compliance และ cost-efficient long-term storage
Raw และ landing zone layoutTransient และ staging zone designCurated และ consumption zone patternsArchival และ retention strategiesPartitioning และ folder conventionsSecurity และ governance per zoneบทเรียนที่ 6Core table designs: fact_orders (schema, grain, joins), dim_customers (slowly changing dimensions handling), fact_events (sessionization และ event enrichment)ศึกษาการออกแบบ analytical table หลักสำหรับ orders, customers และ events กำหนด grain, keys และ relationships จัดการ slowly changing dimensions และออกแบบ event tables สำหรับ sessionization, enrichment และ downstream analytics
การกำหนด table grain และ keysfact_orders schema และ joinsdim_customers และ SCD handlingfact_events และ sessionizationEvent enrichment strategiesSurrogate keys และ constraintsบทเรียนที่ 7Processing engines และเหตุผลที่เลือก: Spark, Flink, Beam, SQL-on-warehouse (BigQuery/Snowflake), Databricks — batch vs stream use casesเปรียบเทียบ processing engines หลักสำหรับ batch และ streaming workloads ประเมิน Spark, Flink, Beam, SQL-on-warehouse และ Databricks โดยเน้น APIs, latency, scalability, ecosystem และเมื่อไหร่ควรเลือกแต่ละตัว
Spark architecture และ use casesFlink สำหรับ low-latency streamingApache Beam unified modelSQL-on-warehouse patternsDatabricks Lakehouse approachEngine selection decision factorsบทเรียนที่ 8Schema evolution และ management: Avro/Parquet schemas, schema registry, backward/forward compatibility strategiesเข้าใจ schema evolution และ management สำหรับ big data systems เรียนรู้ Avro และ Parquet schema design, schema registry usage และ strategies สำหรับ backward, forward และ full compatibility เพื่อหลีกเลี่ยงการทำลาย producers และ consumers
Avro และ Parquet schema basicsSchema registry conceptsBackward และ forward compatibilityการจัดการ breaking changes อย่างปลอดภัยVersioning และ deployment flowsGovernance สำหรับ schema changes