పాఠం 1డేటా లేక్ మరియు ఆబ్జెక్ట్ స్టోరేజ్ ఎంపికలు: S3, GCS, Azure Blob — పార్టిషనింగ్ వ్యూహాలు, ఫైల్ ఫార్మాట్లు (Parquet/ORC/Avro) మరియు కంప్రెషన్ప్రధాన క్లౌడ్లపై డేటా లేక్ డిజైన్ను పరిశోధించండి, S3, GCS, Azure Blobను పోల్చండి. పార్టిషనింగ్ వ్యూహాలు, ఫైల్ లేఅవుట్, Parquet, ORC, Avro, కంప్రెషన్ ఎంపికలు పెర్ఫార్మెన్స్, ఖర్చు, డౌన్స్ట్రీమ్ ప్రాసెసింగ్పై ప్రభావం చూపుతాయని నేర్చుకోండి.
Comparing S3, GCS, and Azure Blob capabilitiesDesigning buckets, folders, and naming conventionsPartitioning by time, entity, and lifecycle stageChoosing Parquet, ORC, or Avro for workloadsCompression codecs and performance tradeoffsOptimizing small files and compaction jobsపాఠం 2బ్యాచ్ ఇంజెషన్ మరియు ఇంటరాపరబిలిటీ: Sqoop/CDC టూల్స్, AWS Glue, Google Dataflow బ్యాచ్, కనెక్టర్ల కోసం Airbyte, నైట్లీ ఎక్స్పోర్ట్ షెడ్యూలింగ్డేటాబేస్లు మరియు SaaS సిస్టమ్ల నుండి Sqoop, CDC టూల్స్, AWS Glue, Google Dataflow బ్యాచ్, Airbyteను ఉపయోగించి బ్యాచ్ ఇంజెషన్ ఆప్షన్లను నేర్చుకోండి. నైట్లీ మరియు ఇంట్రాడే లోడ్లు, స్కీమా హ్యాండ్లింగ్, హెటరోజనియస్ మూలాల అంతటా ఇంటరాపరబిలిటీని డిజైన్ చేయండి.
Sqoop and JDBC based bulk extractionChange Data Capture tools and patternsAWS Glue jobs for batch ingestionGoogle Dataflow batch pipelines designAirbyte connectors and configurationDesigning nightly and intraday load schedulesపాఠం 3స్ట్రీమ్ ప్రాసెసింగ్ ఫ్రేమ్వర్క్లు: Apache Flink, Kafka Streams, Spark Structured Streaming — ఎగ్జాక్ట్లీ-అన్స్ సెమాంటిక్స్, స్టేట్ మేనేజ్మెంట్, విండోయింగ్, వాటర్మార్కింగ్Apache Flink, Kafka Streams, Spark Structured Streamingతో స్ట్రీమ్ ప్రాసెసింగ్లో డైవ్ చేయండి. స్టేట్ఫుల్ ఆపరేటర్లను డిజైన్ చేయడం, ఎగ్జాక్ట్లీ వన్స్ సెమాంటిక్స్ను అమలు చేయడం, రోబస్ట్ రీయల్ టైమ్ అనలిటిక్స్ కోసం విండోలు మరియు వాటర్మార్క్లను కాన్ఫిగర్ చేయడం నేర్చుకోండి.
Flink architecture and deployment optionsKafka Streams topology and state storesSpark Structured Streaming microbatch modelExactly once semantics and idempotent sinksState management, checkpoints, and recoveryWindowing, watermarking, and late eventsపాఠం 4ఇంటిగ్రేషన్ మరియు API లేయర్లు: GraphQL/REST APIs, ప్రొడక్ట్ ఫీడ్ల కోసం మెటీరియలైజ్డ్ వ్యూస్, ఉపయోగకర్తల కోసం డేటా యాక్సెస్ ప్యాటర్న్లుఅనలిటికల్ మరియు ఆపరేషనల్ డేటాను ఎక్స్పోజ్ చేసే ఇంటిగ్రేషన్ మరియు API లేయర్లను పరిశోధించండి. GraphQL మరియు REST ప్యాటర్న్లు, ప్రొడక్ట్ ఫీడ్ల కోసం మెటీరియలైజ్డ్ వ్యూస్ను ఉపయోగించడం, విభిన్న ఉపయోగకర్తల కోసం సురక్షితమైన, గవర్న్డ్ డేటా యాక్సెస్ను డిజైన్ చేయడం నేర్చుకోండి.
REST API design for data accessGraphQL schemas and resolvers for analyticsUsing materialized views for product feedsCaching and pagination strategies for APIsRow level security and authorizationVersioning and backward compatible contractsపాఠం 5స్ట్రీమింగ్ ఇంజెషన్ ఆప్షన్లు మరియు ప్యాటర్న్లు: Kafka, Confluent Platform, AWS Kinesis, Google Pub/Sub — ప్రొడ్యూసర్లు, పార్టిషనింగ్, స్కీమా ఎవల్యూషన్ పరిగణనలుKafka, Confluent, Kinesis, Pub/Subతో స్ట్రీమింగ్ ఇంజెషన్ ప్లాట్ఫారమ్లను అర్థం చేసుకోండి. ప్రొడ్యూసర్ డిజైన్, పార్టిషనింగ్ వ్యూహాలు, స్కీమా ఎవల్యూషన్, డొమైన్ల అంతటా డ్యూరబుల్, స్కేలబుల్ ఈవెంట్ కలెక్షన్ ప్యాటర్న్లను నేర్చుకోండి.
Kafka topics, partitions, and replicationConfluent Platform ecosystem componentsAWS Kinesis streams and firehose usageGoogle Pub/Sub design and quotasProducer design, batching, and backpressureSchema evolution with Avro and schema registryపాఠం 6రీయల్-టైమ్ సర్వింగ్ స్టోర్లు: Redis, RocksDB-బ్యాక్డ్ స్టోర్లు, Cassandra, OLAP స్ట్రీమింగ్ క్వెరీల కోసం DruidRedis, RocksDB బ్యాక్డ్ ఇంజన్లు, Cassandra, Druid వంటి రీయల్ టైమ్ సర్వింగ్ స్టోర్లను అధ్యయనం చేయండి. యాక్సెస్ ప్యాటర్న్లు, డేటా మోడలింగ్, తాజా స్ట్రీమింగ్ డేటాపై లో లేటెన్సీ లుకప్లు మరియు OLAP స్టైల్ క్వెరీలకు మద్దతు ఇవ్వడం నేర్చుకోండి.
Redis as cache and primary data storeRocksDB backed stateful servicesCassandra data modeling for time seriesDruid architecture for streaming OLAPBalancing consistency, latency, and costCapacity planning and hotspot mitigationపాఠం 7అనలిటిక్స్ కోసం డేటా వేర్హౌస్ ఆప్షన్లు: Snowflake, BigQuery, Redshift — CTAS, మెటీరియలైజ్డ్ వ్యూస్, ఖర్చు/తాజాతనం ట్రేడ్-ఆఫ్లుSnowflake, BigQuery, Redshift వంటి డేటా వేర్హౌస్ ఆప్షన్లను పోల్చండి. CTAS ప్యాటర్న్లు, మెటీరియలైజ్డ్ వ్యూస్, క్లస్టరింగ్, అనలిటిక్స్ వర్క్లోడ్ల కోసం ఖర్చు, పెర్ఫార్మెన్స్, డేటా తాజాతనాన్ని బ్యాలెన్స్ చేయడం నేర్చుకోండి.
Snowflake virtual warehouses and scalingBigQuery storage and query optimizationRedshift distribution and sort keysCTAS patterns for derived tablesMaterialized views and refresh policiesCost versus freshness tradeoffs and tuningపాఠం 8బ్యాచ్ ప్రాసెసింగ్ మరియు ఆర్కెస్ట్రేషన్: Apache Spark, EMR/Dataprocపై Spark, ట్రాన్స్ఫర్మేషన్ల కోసం DBT, ఆర్కెస్ట్రేషన్ కోసం Airflow/Cloud Composer/Managed WorkflowsEMR మరియు Dataprocపై Sparkతో బ్యాచ్ ప్రాసెసింగ్, dbtతో SQL-సెంట్రిక్ ట్రాన్స్ఫర్మేషన్లను అర్థం చేసుకోండి. Airflow, Cloud Composer, Managed Workflowsతో ఆర్కెస్ట్రేషన్ ప్యాటర్న్లను నేర్చుకోండి, నమ్మకమైన, ఆబ్జర్వబుల్ బ్యాచ్ పైప్లైన్లను బిల్డ్ చేయండి.
Spark cluster modes and resource sizingSpark job design for ETL and ELTdbt models, tests, and documentationAirflow DAG design and dependency managementScheduling, retries, and SLAs for batch jobsMonitoring, logging, and alerting for pipelinesపాఠం 9ఫీచర్ స్టోర్ మరియు ML డేటా ప్లాట్ఫారమ్: Feast, Tecton, లేదా Delta Lake/BigQueryను ఉపయోగించి కస్టమ్ ఫీచర్ పైప్లైన్లు; ఆన్లైన్ vs ఆఫ్లైన్ ఫీచర్ సర్వింగ్Feast, Tecton, లేదా Delta Lake/BigQueryపై కస్టమ్ ఫీచర్ పైప్లైన్లను ఉపయోగించి ఫీచర్ స్టోర్లు మరియు ML డేటా ప్లాట్ఫారమ్లను పరిశీలించండి. ఫీచర్ నిర్వచనాలు, లైనేజ్, కన్సిస్టెంట్ మోడల్ బిహేవియర్ కోసం ఆన్లైన్ vs ఆఫ్లైన్ సర్వింగ్ను మేనేజ్ చేయడం నేర్చుకోండి.
Core concepts of feature stores and entitiesFeast architecture and deployment patternsTecton capabilities and integration optionsBuilding custom feature pipelines on Delta LakeOffline feature computation in BigQueryOnline versus offline feature serving design