บทเรียนที่ 1ตัวเลือก Data Lake และ Object Storage: S3, GCS, Azure Blob — กลยุทธ์ Partitioning รูปแบบไฟล์ (Parquet/ORC/Avro) และ Compressionสำรวจการออกแบบ Data Lake บนคลาวด์หลัก เปรียบเทียบ S3, GCS และ Azure Blob เรียนรู้กลยุทธ์ Partitioning การจัดวางไฟล์ และวิธีที่ Parquet, ORC, Avro และตัวเลือก Compression ส่งผลต่อประสิทธิภาพ ต้นทุน และการประมวลผลขั้นต่อไป
การเปรียบเทียบความสามารถ S3, GCS และ Azure Blobการออกแบบ Bucket โฟลเดอร์ และการตั้งชื่อPartitioning ตามเวลา เอนทิตี และขั้นตอน Lifecycleการเลือก Parquet, ORC หรือ Avro สำหรับงานCodec การบีบอัดและการแลกเปลี่ยนประสิทธิภาพการปรับให้เหมาะสมไฟล์เล็กและงาน Compactionบทเรียนที่ 2การรับข้อมูลแบทช์และการทำงานร่วมกัน: เครื่องมือ Sqoop/CDC, AWS Glue, Google Dataflow แบทช์, Airbyte สำหรับ Connectors, การจัดตาราง Export รายคืนเรียนรู้ตัวเลือกการรับข้อมูลแบทช์จากฐานข้อมูลและระบบ SaaS โดยใช้ Sqoop, เครื่องมือ CDC, AWS Glue, Google Dataflow แบทช์ และ Airbyte ออกแบบการโหลดรายคืนและระหว่างวัน การจัดการสคีมา และการทำงานร่วมกันข้ามแหล่งข้อมูลที่แตกต่าง
Sqoop และการดึงข้อมูลจำนวนมากจาก JDBCเครื่องมือ Change Data Capture และรูปแบบงาน AWS Glue สำหรับการรับข้อมูลแบทช์การออกแบบท่อ Google Dataflow แบทช์Airbyte Connectors และการกำหนดค่าการออกแบบตารางการโหลดรายคืนและระหว่างวันบทเรียนที่ 3เฟรมเวิร์กการประมวลผลสตรีม: Apache Flink, Kafka Streams, Spark Structured Streaming — Exactly-Once Semantics, State Management, Windowing, Watermarkingเจาะลึกการประมวลผลสตรีมด้วย Apache Flink, Kafka Streams และ Spark Structured Streaming เรียนรู้การออกแบบตัวดำเนินการที่มีสถานะ ใช้งาน Exactly Once Semantics และกำหนดค่า Window และ Watermark สำหรับการวิเคราะห์เรียลไทม์ที่แข็งแกร่ง
สถาปัตยกรรม Flink และตัวเลือกการใช้งานKafka Streams Topology และ State Storeโมเดล Microbatch ของ Spark Structured StreamingExactly Once Semantics และ Sink ที่ IdempotentState Management, Checkpoint และ RecoveryWindowing, Watermarking และเหตุการณ์ล่าช้าบทเรียนที่ 4ชั้น Integration และ API: GraphQL/REST API, Materialized View สำหรับ Product Feed, รูปแบบการเข้าถึงข้อมูลสำหรับผู้บริโภคสำรวจชั้น Integration และ API ที่เปิดเผยข้อมูลการวิเคราะห์และการดำเนินงาน เรียนรู้รูปแบบ GraphQL และ REST ใช้ Materialized View สำหรับ Product Feed และออกแบบการเข้าถึงข้อมูลที่ปลอดภัยและมีการกำกับดูแลสำหรับผู้บริโภคที่หลากหลาย
การออกแบบ REST API สำหรับการเข้าถึงข้อมูลGraphQL Schema และ Resolver สำหรับการวิเคราะห์การใช้ Materialized View สำหรับ Product Feedกลยุทธ์ Caching และ Pagination สำหรับ APIRow Level Security และ AuthorizationVersioning และสัญญาที่เข้ากันได้ย้อนหลังบทเรียนที่ 5ตัวเลือกและรูปแบบการรับข้อมูลสตรีม: Kafka, Confluent Platform, AWS Kinesis, Google Pub/Sub — Producer, Partitioning, ข้อพิจารณา Schema Evolutionเข้าใจแพลตฟอร์มการรับข้อมูลสตรีมรวมถึง Kafka, Confluent, Kinesis และ Pub/Sub เรียนรู้การออกแบบ Producer กลยุทธ์ Partitioning, Schema Evolution และรูปแบบสำหรับการเก็บเหตุการณ์ที่ทนทานและขยายได้ข้ามโดเมน
Kafka Topic, Partition และ Replicationส่วนประกอบระบบนิเวศ Confluent Platformการใช้งาน AWS Kinesis Stream และ Firehoseการออกแบบและ Quota ของ Google Pub/Subการออกแบบ Producer, Batching และ BackpressureSchema Evolution ด้วย Avro และ Schema Registryบทเรียนที่ 6Real-Time Serving Store: Redis, RocksDB-Backed Store, Cassandra, Druid สำหรับ OLAP Streaming Queryศึกษาร้าน Serving เรียลไทม์ เช่น Redis, เครื่องยนต์ที่ใช้ RocksDB, Cassandra และ Druid เรียนรู้รูปแบบการเข้าถึง การสร้างโมเดลข้อมูล และการรองรับการค้นหาความหน่วงต่ำและคำถามสไตล์ OLAP บนข้อมูลสตรีมสด
Redis ในฐานะ Cache และ Primary Data Storeบริการ Stateful ที่ใช้ RocksDBการสร้างโมเดลข้อมูล Cassandra สำหรับ Time Seriesสถาปัตยกรรม Druid สำหรับ Streaming OLAPการปรับสมดุลความสอดคล้อง ความหน่วง และต้นทุนการวางแผนความสามารถและการบรรเทา Hotspotบทเรียนที่ 7ตัวเลือก Data Warehouse สำหรับการวิเคราะห์: Snowflake, BigQuery, Redshift — CTAS, Materialized View, การแลกเปลี่ยนต้นทุน/ความสดเปรียบเทียบตัวเลือก Data Warehouse เช่น Snowflake, BigQuery และ Redshift เรียนรู้รูปแบบ CTAS, Materialized View, Clustering และการปรับสมดุลต้นทุน ประสิทธิภาพ และความสดของข้อมูลสำหรับงานวิเคราะห์
Virtual Warehouse และ Scaling ของ Snowflakeการเก็บข้อมูลและการปรับให้เหมาะสมคำถามของ BigQueryDistribution และ Sort Key ของ Redshiftรูปแบบ CTAS สำหรับตารางอนุพันธ์Materialized View และนโยบาย Refreshการแลกเปลี่ยนต้นทุนเทียบกับความสดและการปรับแต่งบทเรียนที่ 8การประมวลผลแบทช์และ Orchestration: Apache Spark, Spark บน EMR/Dataproc, DBT สำหรับ Transformation, Airflow/Cloud Composer/Managed Workflow สำหรับ Orchestrationเข้าใจการประมวลผลแบทช์ด้วย Spark บน EMR และ Dataproc และการแปลงที่เน้น SQL ด้วย dbt เรียนรู้รูปแบบ Orchestration โดยใช้ Airflow, Cloud Composer และ Managed Workflow เพื่อสร้างท่อแบทช์ที่เชื่อถือได้และสังเกตได้
โหมดคลัสเตอร์ Spark และการกำหนดขนาดทรัพยากรการออกแบบงาน Spark สำหรับ ETL และ ELTโมเดล ทดสอบ และเอกสาร dbtการออกแบบ Airflow DAG และการจัดการ Dependencyการจัดตาราง Retry และ SLA สำหรับงานแบทช์การตรวจสอบ Logging และแจ้งเตือนสำหรับท่อบทเรียนที่ 9Feature Store และ ML Data Platform: Feast, Tecton หรือท่อ Feature แบบกำหนดเองโดยใช้ Delta Lake/BigQuery; Online vs Offline Feature Servingตรวจสอบ Feature Store และ ML Data Platform โดยใช้ Feast, Tecton หรือท่อแบบกำหนดเองบน Delta Lake และ BigQuery เรียนรู้การกำหนด Feature, Lineage และการจัดการการให้บริการ Online เทียบกับ Offline เพื่อพฤติกรรมโมเดลที่สอดคล้อง
แนวคิดหลักของ Feature Store และ Entityสถาปัตยกรรมและรูปแบบการใช้งาน Feastความสามารถและตัวเลือกการรวมของ Tectonการสร้างท่อ Feature แบบกำหนดเองบน Delta Lakeการคำนวณ Feature Offline ใน BigQueryการออกแบบการให้บริการ Feature Online เทียบกับ Offline