Lektion 1Datalagring och objektlagringsval: S3, GCS, Azure Blob — partitioneringsstrategier, filformat (Parquet/ORC/Avro) och komprimeringUtforska datalagringdesign på stora moln, jämför S3, GCS och Azure Blob. Lär dig partitioneringsstrategier, filupplägg och hur Parquet, ORC, Avro och komprimeringsval påverkar prestanda, kostnad och nedströmsbearbetning.
Jämföra S3, GCS och Azure Blob-funktionerDesigna hinkar, mappar och namngivningskonventionerPartitionering efter tid, entitet och livscykelstadiumVälja Parquet, ORC eller Avro för arbetsbelastningarKomprimerings-codecs och prestandaavvägningarOptimera små filer och kompakteringsjobbLektion 2Batch-ingestion och interoperabilitet: Sqoop/CDC-verktyg, AWS Glue, Google Dataflow batch, Airbyte för connectors, nattlig exportplaneringLär dig batch-ingestionsalternativ från databaser och SaaS-system med Sqoop, CDC-verktyg, AWS Glue, Google Dataflow batch och Airbyte. Designa nattliga och intradaglastningar, schemabehandling och interoperabilitet över heterogena källor.
Sqoop och JDBC-baserad bulkextraktionChange Data Capture-verktyg och mönsterAWS Glue-jobb för batch-ingestionGoogle Dataflow batch-pipelines designAirbyte-connectors och konfigurationDesigna nattliga och intradaglastningsschemanLektion 3Streambearbetningsramverk: Apache Flink, Kafka Streams, Spark Structured Streaming — exakt-en-gång-semantik, tillståndshantering, fönstring, watermarkingDyka ner i streambearbetning med Apache Flink, Kafka Streams och Spark Structured Streaming. Lär dig designa tillståndsbaserade operatorer, implementera exakt-en-gång-semantik och konfigurera fönster och watermarks för robust realtidsanalys.
Flink-arkitektur och deploymentsalternativKafka Streams-topologi och tillståndsbutikerSpark Structured Streaming mikrobatch-modellExakt-en-gång-semantik och idempotenta sänkenTillståndshantering, checkpoints och återställningFönstring, watermarking och sena händelserLektion 4Integrations- och API-skikt: GraphQL/REST-API:er, materialiserade vyer för produktflöden, dataåtkomstmönster för konsumenterUtforska integrations- och API-skikt som exponerar analytisk och operativ data. Lär dig GraphQL- och REST-mönster, använda materialiserade vyer för produktflöden och designa säker, styrd dataåtkomst för olika konsumenter.
REST-API-design för dataåtkomstGraphQL-scheman och resolvers för analysAnvända materialiserade vyer för produktflödenCaching- och pagineringsstrategier för API:erRadnivå-säkerhet och auktoriseringVersionshantering och bakåtkompatibla kontraktLektion 5Streaming-ingestionsalternativ och mönster: Kafka, Confluent Platform, AWS Kinesis, Google Pub/Sub — producenter, partitionering, schemaevolutionFörstå streaming-ingestionsplattformar inklusive Kafka, Confluent, Kinesis och Pub/Sub. Lär dig producerdesign, partitioneringsstrategier, schemaevolution och mönster för hållbar, skalbar händelseinsamling över domäner.
Kafka-topics, partitioner och replikeringConfluent Platform ekosystemkomponenterAWS Kinesis-strömmar och firehose-användningGoogle Pub/Sub-design och kvoterProducerdesign, batchning och backpressureSchemaevolution med Avro och schema registryLektion 6Realtidsserveringsbutiker: Redis, RocksDB-baserade butiker, Cassandra, Druid för OLAP-streaming-frågorStudera realtidsserveringsbutiker som Redis, RocksDB-baserade motorer, Cassandra och Druid. Lär dig åtkomstmönster, datamodellering och hur man stödjer låg-latensuppslag och OLAP-stil frågor på färsk streaming-data.
Redis som cache och primär databutikRocksDB-baserade tillståndsbaserade tjänsterCassandra datamodellering för tidsserierDruid-arkitektur för streaming-OLAPBalansera konsistens, latens och kostnadKapacitetsplanering och hotspot-mitigeringLektion 7Data warehouse-alternativ för analys: Snowflake, BigQuery, Redshift — CTAS, materialiserade vyer, kostnad/färskhetsavvägningarJämför data warehouse-alternativ som Snowflake, BigQuery och Redshift. Lär dig CTAS-mönster, materialiserade vyer, klustring och hur man balanserar kostnad, prestanda och datafärskhet för analysarbetsbelastningar.
Snowflake virtuella warehouses och skalningBigQuery lagring och frågeoptimeringRedshift distribution och sortnycklarCTAS-mönster för härledda tabellerMaterialiserade vyer och uppdateringspolicyerKostnad vs färskhetsavvägningar och finjusteringLektion 8Batchbearbetning och orkestrering: Apache Spark, Spark på EMR/Dataproc, DBT för transformationer, Airflow/Cloud Composer/Managed Workflows för orkestreringFörstå batchbearbetning med Spark på EMR och Dataproc, och SQL-centrerade transformationer med dbt. Lär dig orkestreringsmönster med Airflow, Cloud Composer och Managed Workflows för att bygga pålitliga, observerbara batch-pipelines.
Spark-klusterlägen och resursdimensioneringSpark-jobbdesign för ETL och ELTdbt-modeller, tester och dokumentationAirflow DAG-design och beroendeförvaltningSchemaläggning, omförsök och SLA:er för batch-jobbÖvervakning, loggning och varning för pipelinesLektion 9Feature store och ML-dataplattform: Feast, Tecton eller anpassade feature-pipelines med Delta Lake/BigQuery; online vs offline feature-serveringUndersök feature stores och ML-dataplattformar med Feast, Tecton eller anpassade pipelines på Delta Lake och BigQuery. Lär dig feature-definitioner, härkomst och hur man hanterar online vs offline-servering för konsekvent modellbeteende.
Kärnkoncept för feature stores och entiteterFeast-arkitektur och deploymentsmönsterTecton-funktioner och integrationsalternativBygga anpassade feature-pipelines på Delta LakeOffline feature-beräkning i BigQueryOnline vs offline feature-serveringsdesign