שיעור 1בחירות data lake ואחסון אובייקטים: S3, GCS, Azure Blob — אסטרטגיות חלוקה, פורמטי קבצים (Parquet/ORC/Avro) ודחיסהחקור עיצוב data lake בעננים מרכזיים, תשוו S3, GCS ו-Azure Blob. למד אסטרטגיות חלוקה, פריסת קבצים וכיצד בחירות Parquet, ORC, Avro ודחיסה משפיעות על ביצועים, עלויות ועיבוד downstream.
Comparing S3, GCS, and Azure Blob capabilitiesDesigning buckets, folders, and naming conventionsPartitioning by time, entity, and lifecycle stageChoosing Parquet, ORC, or Avro for workloadsCompression codecs and performance tradeoffsOptimizing small files and compaction jobsשיעור 2אינגסציה אצווה ואינטרופרביליות: כלי Sqoop/CDC, AWS Glue, Google Dataflow אצווה, Airbyte למחברים, תזמון יצוא לילילמד אפשרויות אינגסציה אצווה ממסדי נתונים ומערכות SaaS באמצעות Sqoop, כלי CDC, AWS Glue, Google Dataflow אצווה ו-Airbyte. תכנן טעינות ליליות ויומיות, טיפול סכמה ואינטרופרביליות בין מקורות הטרוגניים.
Sqoop and JDBC based bulk extractionChange Data Capture tools and patternsAWS Glue jobs for batch ingestionGoogle Dataflow batch pipelines designAirbyte connectors and configurationDesigning nightly and intraday load schedulesשיעור 3מסגרות עיבוד זרם: Apache Flink, Kafka Streams, Spark Structured Streaming — סמנטיקה בדיוק פעם אחת, ניהול מצב, חלוניות, watermarkingצלול לעיבוד זרם עם Apache Flink, Kafka Streams ו-Spark Structured Streaming. למד לעצב אופרטורים ממוצבים, ליישם סמנטיקה בדיוק פעם אחת, ולהגדיר חלונות ו-watermarks לאנליטיקה זמן אמת חזקה.
Flink architecture and deployment optionsKafka Streams topology and state storesSpark Structured Streaming microbatch modelExactly once semantics and idempotent sinksState management, checkpoints, and recoveryWindowing, watermarking, and late eventsשיעור 4שכבות אינטגרציה ו-API: GraphQL/REST API, תצוגות ממומשות להזנות מוצרים, דפוסי גישה נתונים לצרכניםחקור שכבות אינטגרציה ו-API שחושפות נתונים אנליטיים ותפעוליים. למד דפוסי GraphQL ו-REST, שימוש בתצוגות ממומשות להזנות מוצרים, ועיצוב גישה מאובטחת ומנוהלת לצרכנים מגוונים.
REST API design for data accessGraphQL schemas and resolvers for analyticsUsing materialized views for product feedsCaching and pagination strategies for APIsRow level security and authorizationVersioning and backward compatible contractsשיעור 5אפשרויות ודפוסי אינגסציה סטרימינג: Kafka, Confluent Platform, AWS Kinesis, Google Pub/Sub — יצרנים, חלוקה, שיקולים להתפתחות סכמההבן פלטפורמות אינגסציה סטרימינג כולל Kafka, Confluent, Kinesis ו-Pub/Sub. למד עיצוב יצרנים, אסטרטגיות חלוקה, התפתחות סכמה ודפוסים לאיסוף אירועים עמיד וניתן להרחבה על פני תחומים.
Kafka topics, partitions, and replicationConfluent Platform ecosystem componentsAWS Kinesis streams and firehose usageGoogle Pub/Sub design and quotasProducer design, batching, and backpressureSchema evolution with Avro and schema registryשיעור 6חנויות שירות בזמן אמת: Redis, חנויות מבוססות RocksDB, Cassandra, Druid לשאילתות OLAP סטרימינגלמד חנויות שירות בזמן אמת כמו Redis, מנועים מבוססי RocksDB, Cassandra ו-Druid. למד דפוסי גישה, מודלינג נתונים וכיצד לתמוך בחיפושים בעלי זמן תגובה נמוך ושאילתות OLAP על נתוני סטרימינג טריים.
Redis as cache and primary data storeRocksDB backed stateful servicesCassandra data modeling for time seriesDruid architecture for streaming OLAPBalancing consistency, latency, and costCapacity planning and hotspot mitigationשיעור 7אפשרויות מחסן נתונים לאנליטיקה: Snowflake, BigQuery, Redshift — CTAS, תצוגות ממומשות, פשרות עלות/טריותהשווה אפשרויות מחסן נתונים כמו Snowflake, BigQuery ו-Redshift. למד דפוסי CTAS, תצוגות ממומשות, אשכולות, ואיזון עלות, ביצועים וטריות נתונים לעומסי אנליטיקה.
Snowflake virtual warehouses and scalingBigQuery storage and query optimizationRedshift distribution and sort keysCTAS patterns for derived tablesMaterialized views and refresh policiesCost versus freshness tradeoffs and tuningשיעור 8עיבוד אצווה ותזמון: Apache Spark, Spark על EMR/Dataproc, DBT לשינויים, Airflow/Cloud Composer/Managed Workflows לתזמוןהבן עיבוד אצווה עם Spark על EMR ו-Dataproc, ושינויים מבוססי SQL עם dbt. למד דפוסי תזמון באמצעות Airflow, Cloud Composer ו-Managed Workflows לבניית צינורות אצווה אמינים וניתנים למעקב.
Spark cluster modes and resource sizingSpark job design for ETL and ELTdbt models, tests, and documentationAirflow DAG design and dependency managementScheduling, retries, and SLAs for batch jobsMonitoring, logging, and alerting for pipelinesשיעור 9חנות תכונות ופלטפורמת נתוני ML: Feast, Tecton, או צינורות תכונות מותאמים עם Delta Lake/BigQuery; שירות תכונות מקוון מול לא מקווןבחון חנויות תכונות ופלטפורמות נתוני ML באמצעות Feast, Tecton או צינורות תכונות מותאמים על Delta Lake ו-BigQuery. למד הגדרות תכונות, קו יוחסין וניהול שירות תכונות מקוון מול לא מקוון להתנהגות מודל עקבית.
Core concepts of feature stores and entitiesFeast architecture and deployment patternsTecton capabilities and integration optionsBuilding custom feature pipelines on Delta LakeOffline feature computation in BigQueryOnline versus offline feature serving design