មេរៀនរងទី 1ជម្រើសផ្ទុកភក់ទិន្នន័យ និងវត្ថុ៖ S3, GCS, Azure Blob — យុទ្ធសាស្ត្របែងចែក ទម្រង់ឯកសារ (Parquet/ORC/Avro) និងការបង្រួមស្វែងយល់ពីការរចនាផ្ទុកភក់ទិន្នន័យនៅពពកសំខាន់ ប្រៀបធៀប S3, GCS, និង Azure Blob។ រៀនយុទ្ធសាស្ត្របែងចែក ប្លង់ឯកសារ និងរបៀបដែលជម្រើស Parquet, ORC, Avro, និងការបង្រួមប៉ះពាល់ដល់ការអនុវត្ត ថ្លៃដើម និងការដំណើរការក្រោយ។
ការប្រៀបធៀបសមត្ថភាព S3, GCS, និង Azure Blobការរចនាខ្នង ថត និងឧស្ម័នឈ្មោះការបែងចែកតាមពេលវេលា របស់ និងដំណាក់កាលជីវិតជ្រើសរើស Parquet, ORC, ឬ Avro សម្រាប់ការងារកូដកកាយបង្រួម និងការប្តូរទម្រង់ការអនុវត្តការបង្កើនសមត្ថភាពឯកសារតូច និងការងារបង្រួមមេរៀនរងទី 2ការទទួលកញ្ចប់ និងការអន្តរប្រតិបត្តិការ៖ ឧបករណ៍ Sqoop/CDC, AWS Glue, Google Dataflow កញ្ចប់, Airbyte សម្រាប់កនើឺរ កាលវិភាគនាំចេញយប់រៀនជម្រើសការទទួលកញ្ចប់ពីមូលដ្ឋានទិន្នន័យ និងប្រព័ន្ធ SaaS ដោយប្រើ Sqoop, ឧបករណ៍ CDC, AWS Glue, Google Dataflow កញ្ចប់, និង Airbyte។ រចនាការផ្ទុកយប់ និងខាងក្នុងថ្ងៃ ការគ្រប់គ្រងគ្រោង និងការអន្តរប្រតិបត្តិការជាតិ ពីប្រភពផ្សេងៗ។
Sqoop និងការដកចេញច្រើនដោយផ្អែកលើ JDBCឧបករណ៍ និងលំនាំ Change Data Captureការងារ AWS Glue សម្រាប់ការទទួលកញ្ចប់ការរចនាបំពង់កញ្ចប់ Google Dataflowកនើឺរ និងការកំណត់ Airbyteការរចនាកាលវិភាគផ្ទុកយប់ និងខាងក្នុងថ្ងៃមេរៀនរងទី 3ក្របខណ្ឌដំណើរការហូរ៖ Apache Flink, Kafka Streams, Spark Structured Streaming — សេម៉ាន់ទិក exactly-once, ការគ្រប់គ្រងស្ថានហាក់ដូចជា បង្អួច និង watermarkingស៊ុតចូលក្នុងការដំណើរការហូរជាមួយ Apache Flink, Kafka Streams, និង Spark Structured Streaming។ រៀនរចនាប្រតិបត្តិការមានស្ថានភាព អនុវត្តសេម៉ាន់ទិក exactly once និងកំណត់បង្អួច និង watermarks សម្រាប់ការវិភាគពេលវេលាជាក់ស្តែងដ៏រឹងមាំ។
ស្ថាបត្យកម្ម Flink និងជម្រើសដាក់ពង្រាយទម្រង់ Kafka Streams និងផ្ទុកស្ថានភាពម៉ូដែល microbatch Spark Structured Streamingសេម៉ាន់ទិក exactly once និង sinks idempotentការគ្រប់គ្រងស្ថានភាព ចំណុចត្រួតពិនិត្យ និងស្តារឡើងវិញបង្អួច watermarking និងព្រឹត្តិការណ៍យឺតមេរៀនរងទី 4ស្រទាប់ការរួមបញ្ចូល និង API៖ GraphQL/REST APIs ទិដ្ឋភាពសម្រាប់ហូរផលិតផល លំនាំចូលប្រើទិន្នន័យសម្រាប់អ្នកប្រើប្រាស់ស្វែងយល់ពីស្រទាប់ការរួមបញ្ចូល និង API ដែលបើកទិន្នន័យវិភាគ និងប្រតិបត្តិការ។ រៀនលំនាំ GraphQL និង REST ការប្រើទិដ្ឋភាពសម្រាប់ហូរផលិតផល និងការរចនាចូលប្រើទិន្នន័យសុវត្ថិភាព គ្រប់គ្រងសម្រាប់អ្នកប្រើប្រាស់ផ្សេងៗ។
ការរចនា REST API សម្រាប់ចូលប្រើទិន្នន័យគ្រោង GraphQL និង resolvers សម្រាប់វិភាគការប្រើទិដ្ឋភាពសម្រាប់ហូរផលិតផលយុទ្ធសាស្ត្រកាស់ និង pagination សម្រាប់ APIសុវត្ថិភាពកម្រិតជួរនិងកម្រិតជួរឈរការប្រើប្រាស់ និងកិច្ចសន្យាឯកសារស្របភាពមេរៀនរងទី 5ជម្រើស និងលំនាំការទទួលហូរ៖ Kafka, Confluent Platform, AWS Kinesis, Google Pub/Sub — អ្នកផលិត បែងចែក ការពិចារណាវិវត្តន៍គ្រោងយល់ដឹងពីវេទិកាការទទួលហូររួមទាំង Kafka, Confluent, Kinesis, និង Pub/Sub។ រៀនការរចនាអ្នកផលិត យុទ្ធសាស្ត្របែងចែក វិវត្តន៍គ្រោង និងលំនាំសម្រាប់ការប្រមូលព្រឹត្តិការណ៍ដែលស្ថិរភាព ពង្រីកបានតាមដែន។
ប្រធានបទ Kafka បែងចែក និងការបញ្ជូនចម្លងសមាសភាគប្រព័ន្ធ Confluent Platformការប្រើប្រាស់ហូរ និង firehose Kinesis AWSការរចនា និងកំណត់ Google Pub/Subការរចនាអ្នកផលិត ការប្រមូល និង backpressureវិវត្តន៍គ្រោងជាមួយ Avro និង schema registryមេរៀនរងទី 6ផ្ទុកសេវាពេលវេលាជាក់ស្តែង៖ Redis, ផ្ទុក RocksDB-backed, Cassandra, Druid សម្រាប់សំណួរ OLAP ហូរសិក្សាផ្ទុកសេវាពេលវេលាជាក់ស្តែងដូចជា Redis ម៉ាស៊ីន RocksDB backed Cassandra និង Druid។ រៀនលំនាំចូលប្រើ ការធ្វើមូលដ្ឋានទិន្នន័យ និងការគាំទ្រការស្វែងរកពន្យៀចទាប និងសំណួរ OLAP លើទិន្នន័យហូរស្រស់។
Redis ជាកាស់ និងផ្ទុកទិន្នន័យបឋមសេវាមានស្ថានភាព RocksDB backedការធ្វើមូលដ្ឋានទិន្នន័យ Cassandra សម្រាប់ series ពេលវេលាស្ថាបត្យកម្ម Druid សម្រាប់ OLAP ហូរការសមតុល្យភាពស៊ីសង្ស័យ ពន្យៀច និងថ្លៃដើមការរៀបចំសមត្ថភាព និងកែតម្រូវ hotspotមេរៀនរងទី 7ជម្រើសផ្ទុកទិន្នន័យវិភាគសម្រាប់វិភាគ៖ Snowflake, BigQuery, Redshift — CTAS ទិដ្ឋភាព ការប្តូរទម្រង់ថ្លៃដើម/ស្រស់ប្រៀបធៀបជម្រើសផ្ទុកទិន្នន័យវិភាគដូចជា Snowflake, BigQuery, និង Redshift។ រៀនលំនាំ CTAS ទិដ្ឋភាព ការប្រមូល និងការសមតុល្យថ្លៃដើម ការអនុវត្ត និងស្រស់នៃទិន្នន័យសម្រាប់ការងារវិភាគ។
ផ្ទុកឆ្ការ Snowflake និងការពង្រីកការផ្ទុក និងការបង្កើនចំណូលសំណួរ BigQueryការចែកចាយ Redshift និងកូដនៅលើលំនាំ CTAS សម្រាប់តារាងដកស្រង់ទិដ្ឋភាព និងគោលនយោបាយធ្វើបច្ចុប្បន្នភាពការប្តូរទម្រង់ថ្លៃដើម និងស្រស់ និងការប្រែប្រួលមេរៀនរងទី 8ការដំណើរការកញ្ចប់ និងការសម្របសម្រួល៖ Apache Spark, Spark នៅលើ EMR/Dataproc, DBT សម្រាប់ការបំលែង, Airflow/Cloud Composer/Managed Workflows សម្រាប់ការសម្របសម្រួលយល់ដឹងពីការដំណើរការកញ្ចប់ជាមួយ Spark នៅលើ EMR និង Dataproc និងការបំលែងកណ្តាល SQL ជាមួយ dbt។ រៀនលំនាំការសម្របសម្រួលដោយប្រើ Airflow, Cloud Composer, និង Managed Workflows ដើម្បីសាងសង់បំពង់កញ្ចប់ដែលជឿជាក់ និងអាចសង្កេតបាន។
ម៉ូដក្លស្ត័រ Spark និងការវាស់វែងធនធានការរចនាការងារ Spark សម្រាប់ ETL និង ELTមូលដ្ឋាន dbt សាកល្បង និងឯកសារការរចនា DAG Airflow និងការគ្រប់គ្រងការពឹងផ្អែកកាលវិភាគ ការព្យាយាមឡើងវិញ និង SLA សម្រាប់ការងារកញ្ចប់ការតាមដាន កត់ត្រា និងជូនដំណឹងសម្រាប់បំពង់មេរៀនរងទី 9ផ្ទុកលក្ខណៈសម្បត្តិ និងវេទិកាទិន្នន័យ ML៖ Feast, Tecton, ឬបំពង់លក្ខណៈសម្បត្តិផ្ទាល់ខ្លួនដោយប្រើ Delta Lake/BigQuery៖ សេវាលក្ខណៈសម្បត្តិអនឡាញ និងក្រៅបណ្តាញពិនិត្យផ្ទុកលក្ខណៈសម្បត្តិ និងវេទិកាទិន្នន័យ ML ដោយប្រើ Feast, Tecton, ឬបំពង់ផ្ទាល់ខ្លួននៅលើ Delta Lake និង BigQuery។ រៀនការកំណត់លក្ខណៈសម្បត្តិ ប្រភពដើម និងការគ្រប់គ្រងសេវាអនឡាញ និងក្រៅបណ្តាញសម្រាប់អាកប្បកិរិយាមូលដ្ឋានស៊ីសង្ស័យ។
គំនិតស្នូលនៃផ្ទុកលក្ខណៈសម្បត្តិ និងរបស់ស្ថាបត្យកម្ម និងលំនាំដាក់ពង្រាយ Feastសមត្ថភាព Tecton និងជម្រើសការរួមបញ្ចូលការបង្កើតបំពង់លក្ខណៈសម្បត្តិផ្ទាល់ខ្លួននៅលើ Delta Lakeការគណនាលក្ខណៈសម្បត្តិក្រៅបណ្តាញក្នុង BigQueryការរចនាសេវាលក្ខណៈសម្បត្តិអនឡាញ និងក្រៅបណ្តាញ