1 වන පාඩමදත්ත තටාකය සහ වස්තු ගබඩා තේරීම්: S3, GCS, Azure Blob — partitioning උපාය මාර්ග, ගොනු ආකෘති (Parquet/ORC/Avro) සහ compressionප්රධාන ක්ලවුඩ්වල දත්ත තටාක සැලසුම්කරණය S3, GCS, Azure Blob සංසන්දනය කරන්න. Partitioning උපාය මාර්ග, ගොනු සැලසුම්, Parquet, ORC, Avro සහ compression තේරීම් කාර්ය සාධනය, පිරිවැය සහ පහළ ප්රතිපත්තිකරණයට බලපාන ආකාරය ඉගෙන ගන්න.
S3, GCS, Azure Blob හැකියාවන් සංසන්දනයබකට්, ෆෝල්ඩර් සහ නාමකරණ සම්මත සැලසුම්කරණයකාලය, ඒකක සහ ජීවන චක්ර අදියරෙන් partitioningවැඩපිළිවෙළ සඳහා Parquet, ORC හෝ Avro තේරීමCompression codecs සහ කාර්ය සාධන වෙළඳපොළකුඩා ගොනු සහ compaction රෝග අංග්කරණය2 වන පාඩමබෑච් ආහාර ගැනීම සහ interoperability: Sqoop/CDC උපකරණ, AWS Glue, Google Dataflow batch, Airbyte connectors සඳහා, නිට්ලි අපනයන schedulingSqoop, CDC උපකරණ, AWS Glue, Google Dataflow batch, Airbyte භාවිතා කර දත්ත සමුදායන් සහ SaaS පද්ධතිවලින් බෑච් ආහාර ගැනීමේ විකල්ප ඉගෙන ගන්න. නිට්ලි සහ intraday ලෝඩ්, ස්කීමා කළමනාකරණය, විවිධ මූලාශ්ර අනුව interoperability සැලසුම් කරන්න.
Sqoop සහ JDBC ආධාරක බහුල ඉවත්කිරීමChange Data Capture උපකරණ සහ රටාබෑච් ආහාර ගැනීම සඳහා AWS Glue රෝගGoogle Dataflow batch පයිප්ලයින් සැලසුම්කරණයAirbyte connectors සහ සැකසුම්නිට්ලි සහ intraday ලෝඩ් schedules සැලසුම්කරණය3 වන පාඩමStream ප්රතිපත්තිකරණ රාමු: Apache Flink, Kafka Streams, Spark Structured Streaming — exactly-once semantics, තත්ත්ව කළමනාකරණය, windowing, watermarkingApache Flink, Kafka Streams, Spark Structured Streaming සමඟ stream ප්රතිපත්තිකරණයට ගිලීම. Stateful operators සැලසුම් කිරීම, exactly once semantics ක්රියාත්මක කිරීම, robust real time විශ්ලේෂණ සඳහා windows සහ watermarks සකස් කිරීම ඉගෙන ගන්න.
Flink ව්යුහය සහ deployment විකල්පKafka Streams topology සහ තත්ත්ව ගබඩාSpark Structured Streaming microbatch ආකෘතියExactly once semantics සහ idempotent sinksතත්ත්ව කළමනාකරණය, checkpoints, recoveryWindowing, watermarking, දේශපාලන සිදුවීම්4 වන පාඩමඒකාබද්ධකරණය සහ API කොටස්: GraphQL/REST API, නිෂ්පාදන feeds සඳහා materialized views, පාරිභෝගිකයින් සඳහා දත්ත ප්රවේශ රටාවිශ්ලේෂණාත්මක සහ මෙහෙයුම් දත්ත ප්රචාරණය කරන ඒකාබද්ධකරණය සහ API කොටස් ගවේෂණය කරන්න. GraphQL සහ REST රටා, නිෂ්පාදන feeds සඳහා materialized views භාවිතය, විවිධ පාරිභෝගිකයින් සඳහා ආරක්ෂිත, පාලනය කළ දත්ත ප්රවේශ සැලසුම්කරණය ඉගෙන ගන්න.
දත්ත ප්රවේශ සඳහා REST API සැලසුම්කරණයවිශ්ලේෂණ සඳහා GraphQL schemas සහ resolversනිෂ්පාදන feeds සඳහා materialized views භාවිතයAPI සඳහා caching සහ pagination උපාය මාර්ගRow level ආරක්ෂාව සහ අවසරVersioning සහ පසුගාමී සහගත කොන්ට්රැක්ට්5 වන පාඩමStreaming ආහාර ගැනීමේ විකල්ප සහ රටා: Kafka, Confluent Platform, AWS Kinesis, Google Pub/Sub — producers, partitioning, schema evolution සලකා බැලීම්Kafka, Confluent, Kinesis, Pub/Sub ඇතුළු streaming ආහාර ගැනීමේ වේදිකා තේරුම් ගන්න. Producer සැලසුම්කරණය, partitioning උපාය මාර්ග, schema evolution, ක්ෂේත්ර පුරා ලියවුණු, පරිමාණ වළලු සිදුවීම් එකතුවීමේ රටා ඉගෙන ගන්න.
Kafka topics, partitions, replicationConfluent Platform ecosystem අංගAWS Kinesis streams සහ firehose භාවිතයGoogle Pub/Sub සැලසුම්කරණය සහ quotasProducer සැලසුම්කරණය, batching, backpressureAvro සහ schema registry සමඟ schema evolution6 වන පාඩමරියල්-ටයිම් සේවන ගබඩා: Redis, RocksDB-backed ගබඩා, Cassandra, OLAP streaming විමසුම් සඳහා DruidRedis, RocksDB backed එන්ජින්, Cassandra, Druid වැනි රියල්-ටයිම් සේවන ගබඩා අධ්යයනය කරන්න. ප්රවේශ රටා, දත්ත ආකෘතිකරණය, නිර්මාංශන streaming දත්ත මත අඩු ප්රමාදන lookups සහ OLAP ශෛලී විමසුම් සඳහා සහාය දක්වන ආකාරය ඉගෙන ගන්න.
Cache සහ ප්රධාන දත්ත ගබඩාව ලෙස RedisRocksDB backed stateful සේවාකාල ශ්රේණි සඳහා Cassandra දත්ත ආකෘතිකරණයStreaming OLAP සඳහා Druid ව්යුහයස්ථිරභාවය, ප්රමාදන, පිරිවැය සමබර කිරීමධාරිතා සැලසුම්කරණය සහ hotspot ප්රතිකර්ම7 වන පාඩමවිශ්ලේෂණ සඳහා දත්ත ගබඩා විකල්ප: Snowflake, BigQuery, Redshift — CTAS, materialized views, පිරිවැය/නිර්මාංශන වෙළඳපොළSnowflake, BigQuery, Redshift වැනි දත්ත ගබඩා විකල්ප සංසන්දනය කරන්න. CTAS රටා, materialized views, clustering, විශ්ලේෂණ වැඩපිළිවෙළ සඳහා පිරිවැය, කාර්ය සාධනය, දත්ත නිර්මාංශන සමබර කිරීම ඉගෙන ගන්න.
Snowflake virtual warehouses සහ scalingBigQuery ගබඩාකරණය සහ විමසුම් ඉංග්කරණයRedshift distribution සහ sort keysආභාසිත tables සඳහා CTAS රටාMaterialized views සහ refresh ප්රතිපත්තිපිරිවැය vs නිර්මාංශන වෙළඳපොළ සහ tuning8 වන පාඩමබෑච් ප්රතිපත්තිකරණය සහ orchestration: Apache Spark, EMR/Dataproc හි Spark, transformations සඳහා DBT, orchestration සඳහා Airflow/Cloud Composer/Managed WorkflowsEMR සහ Dataproc හි Spark සමඟ බෑච් ප්රතිපත්තිකරණය, dbt සමඟ SQL-කේන්ද්රීය transformations තේරුම් ගන්න. Airflow, Cloud Composer, Managed Workflows භාවිතා කර විශ්වාසනීය, නිරීක්ෂණය කළ බෑච් පයිප්ලයින් ගොඩනැගීමට orchestration රටා ඉගෙන ගන්න.
Spark cluster modes සහ සම්පත් sizingETL සහ ELT සඳහා Spark රෝග සැලසුම්කරණයdbt models, tests, documentationAirflow DAG සැලසුම්කරණය සහ dependency කළමනාකරණයබෑච් රෝග සඳහා scheduling, retries, SLAපයිප්ලයින් සඳහා monitoring, logging, alerting9 වන පාඩමFeature store සහ ML දත්ත වේදිකා: Feast, Tecton, හෝ Delta Lake/BigQuery භාවිත custom feature පයිප්ලයින්; online vs offline feature සේවනයFeast, Tecton, Delta Lake සහ BigQuery හි custom පයිප්ලයින් භාවිතා කර feature stores සහ ML දත්ත වේදිකා පරීක්ෂා කරන්න. Feature නිර්වචන, lineage, ස්ථිර මාදිලි හැසිරීම සඳහා online vs offline සේවනය කළමනාකරණය කිරීම ඉගෙන ගන්න.
Feature stores සහ entities හි මූලික සංකල්පFeast ව්යුහය සහ deployment රටාTecton හැකියාවන් සහ ඒකාබද්ධ විකල්පDelta Lake හි custom feature පයිප්ලයින් ගොඩනැගීමBigQuery හි offline feature computationOnline vs offline feature සේවන සැලසුම්කරණය