Pelajaran 1Pilihan tasik data dan storan objek: S3, GCS, Azure Blob — strategi pemerincahan, format fail (Parquet/ORC/Avro) dan pemampatanTeroka reka bentuk tasik data pada awan utama, membandingkan S3, GCS, dan Azure Blob. Belajar strategi pemerincahan, susun atur fail, dan bagaimana pilihan Parquet, ORC, Avro, dan pemampatan mempengaruhi prestasi, kos, dan pemprosesan hiliran.
Membandingkan keupayaan S3, GCS, dan Azure BlobMereka bentuk baldi, folder, dan konvensyen penamaanPemerincahan mengikut masa, entiti, dan peringkat kitaran hidupMemilih Parquet, ORC, atau Avro untuk beban kerjaKod pemampatan dan pertukaran prestasiPengoptimuman fail kecil dan kerja pemadatanPelajaran 2Ingesti batch dan interoperabiliti: Alat Sqoop/CDC, AWS Glue, Google Dataflow batch, Airbyte untuk penyambung, penjadualan eksport malamBelajar pilihan ingesti batch dari pangkalan data dan sistem SaaS menggunakan Sqoop, alat CDC, AWS Glue, Google Dataflow batch, dan Airbyte. Reka bentuk muatan malam dan intraday, pengendalian skema, dan interoperabiliti merentas sumber heterogen.
Pengekstrakan pukal berasaskan Sqoop dan JDBCAlat dan corak Penangkapan Data PerubahanKerja AWS Glue untuk ingesti batchReka bentuk saluran batch Google DataflowPenyambung dan konfigurasi AirbyteReka bentuk penjadualan muatan malam dan intradayPelajaran 3Rangka kerja pemprosesan strim: Apache Flink, Kafka Streams, Spark Structured Streaming — semantik sekali sahaja, pengurusan keadaan, windowing, watermarkingSelami pemprosesan strim dengan Apache Flink, Kafka Streams, dan Spark Structured Streaming. Belajar mereka bentuk pengendali berkeadaan, melaksanakan semantik sekali sahaja, dan menyusun tingkap dan tanda air untuk analitik masa nyata yang teguh.
Seni bina Flink dan pilihan penyebaranTopologi Kafka Streams dan storan keadaanModel mikro-batch Spark Structured StreamingSemantik sekali sahaja dan sink idempotenPengurusan keadaan, titik semak, dan pemulihanWindowing, watermarking, dan peristiwa lewatPelajaran 4Lapisan integrasi dan API: API GraphQL/REST, pandangan materialisasi untuk suapan produk, corak akses data untuk penggunaTeroka lapisan integrasi dan API yang mendedahkan data analitik dan operasi. Belajar corak GraphQL dan REST, menggunakan pandangan materialisasi untuk suapan produk, dan mereka bentuk akses data yang selamat dan ditadbir untuk pengguna pelbagai.
Reka bentuk API REST untuk akses dataSkema GraphQL dan penyelesai untuk analitikMenggunakan pandangan materialisasi untuk suapan produkStrategi caching dan pagination untuk APIKeselamatan peringkat baris dan kebenaranVersi dan kontrak serasi ke belakangPelajaran 5Pilihan dan corak ingesti penstriman: Kafka, Confluent Platform, AWS Kinesis, Google Pub/Sub — pengeluar, pemerincahan, pertimbangan evolusi skemaFahami platform ingesti penstriman termasuk Kafka, Confluent, Kinesis, dan Pub/Sub. Belajar reka bentuk pengeluar, strategi pemerincahan, evolusi skema, dan corak untuk pengumpulan peristiwa yang tahan lama dan boleh diskalakan merentas domain.
Topik Kafka, pemerincahan, dan replikasiKomponen ekosistem Confluent PlatformPenggunaan strim dan firehose AWS KinesisReka bentuk dan kuota Google Pub/SubReka bentuk pengeluar, batching, dan tekanan balikEvolusi skema dengan Avro dan pendaftar skemaPelajaran 6Storan perkhidmatan masa nyata: Redis, storan berasaskan RocksDB, Cassandra, Druid untuk pertanyaan penstriman OLAPKaji storan perkhidmatan masa nyata seperti Redis, enjin berasaskan RocksDB, Cassandra, dan Druid. Belajar corak akses, pemodelan data, dan cara menyokong carian latensi rendah dan pertanyaan gaya OLAP pada data penstriman segar.
Redis sebagai cache dan storan data utamaPerkhidmatan berkeadaan berasaskan RocksDBPemodelan data Cassandra untuk siri masaSeni bina Druid untuk penstriman OLAPMengimbangi konsistensi, latensi, dan kosPerancangan keupayaan dan penyejukan titik panasPelajaran 7Pilihan gudang data untuk analitik: Snowflake, BigQuery, Redshift — CTAS, pandangan materialisasi, pertukaran kos/kesegaranBandingkan pilihan gudang data seperti Snowflake, BigQuery, dan Redshift. Belajar corak CTAS, pandangan materialisasi, pengelompokan, dan cara mengimbangi kos, prestasi, dan kesegaran data untuk beban kerja analitik.
Gudang maya Snowflake dan penskalaanPenyimpanan BigQuery dan pengoptimuman pertanyaanTaburan Redshift dan kunci susunCorak CTAS untuk jadual terasulDasar pandangan materialisasi dan penyegaranPertukaran kos versus kesegaran dan penalaanPelajaran 8Pemprosesan batch dan orchestrasi: Apache Spark, Spark pada EMR/Dataproc, DBT untuk transformasi, Airflow/Cloud Composer/Workflows Diurus untuk orchestrasiFahami pemprosesan batch dengan Spark pada EMR dan Dataproc, dan transformasi berpusat SQL dengan dbt. Belajar corak orchestrasi menggunakan Airflow, Cloud Composer, dan Workflows Diurus untuk membina saluran batch yang boleh dipercayai dan boleh diamati.
Mod kluster Spark dan saiz sumberReka bentuk kerja Spark untuk ETL dan ELTModel dbt, ujian, dan dokumentasiReka bentuk DAG Airflow dan pengurusan pergantunganPenjadualan, percubaan semula, dan SLA untuk kerja batchPemantauan, log, dan amaran untuk saluranPelajaran 9Kedai ciri dan platform data ML: Feast, Tecton, atau saluran ciri tersuai menggunakan Delta Lake/BigQuery; perkhidmatan ciri dalam talian vs luar talianKaji kedai ciri dan platform data ML menggunakan Feast, Tecton, atau saluran tersuai pada Delta Lake dan BigQuery. Belajar definisi ciri, keturunan, dan cara mengurus perkhidmatan dalam talian versus luar talian untuk tingkah laku model yang konsisten.
Konsep teras kedai ciri dan entitiSeni bina Feast dan corak penyebaranKeupayaan Tecton dan pilihan integrasiMembina saluran ciri tersuai pada Delta LakePengiraan ciri luar talian dalam BigQueryReka bentuk perkhidmatan ciri dalam talian versus luar talian