Somo 1Chaguo za ziwa la data na uhifadhi wa kitu: S3, GCS, Azure Blob — mikakati ya kugawanya, miundo ya faili (Parquet/ORC/Avro) na kubanaChunguza muundo wa ziwa la data kwenye wingu kuu, ukilinganisha S3, GCS, na Azure Blob. Jifunze mikakati ya kugawanya, mpangilio wa faili, na jinsi chaguo za Parquet, ORC, Avro, na kubana zinavyoathiri utendaji, gharama, na kuchakata chini.
Kulinganisha uwezo wa S3, GCS, na Azure BlobKubuni bawketa, folda, na desturi za majinaKugawanya kwa wakati, chombo, na hatua ya maishaKuchagua Parquet, ORC, au Avro kwa workloadsKodi za kubana na makubaliano ya utendajiKuboresha faili ndogo na kazi za kubanaSomo 2Kuingiza kundi na ushirikiano: zana za Sqoop/CDC, AWS Glue, Google Dataflow kundi, Airbyte kwa viunganisho, ratiba ya usafirishaji wa usikuJifunze chaguo za kuingiza kundi kutoka hifadhi za data na mifumo ya SaaS kwa kutumia Sqoop, zana za CDC, AWS Glue, Google Dataflow kundi, na Airbyte. Bubuni magogo ya usiku na intraday, kushughulikia schema, na ushirikiano kati ya vyanzo tofauti.
Sqoop na uchukuzi mkubwa unaotegemea JDBCZana na mifumo ya Kukamata Data ya MabadilikoKazi za AWS Glue kwa kuingiza kundiMuundo wa mifereji ya kundi ya Google DataflowViunganisho vya Airbyte na usanidiKubuni ratiba za magogo ya usiku na intradaySomo 3Muundo wa kushughulikia mtiririko: Apache Flink, Kafka Streams, Spark Structured Streaming — semantiki ya mara moja, udhibiti wa hali, dirisha, alama za majiIngia kwenye kushughulikia mtiririko na Apache Flink, Kafka Streams, na Spark Structured Streaming. Jifunze kubuni waendeshaji wenye hali, kutekeleza semantiki ya mara moja, na kusanidi dirisha na alama za maji kwa uchambuzi thabiti wa wakati halisi.
Usanidi wa Flink na chaguo za kuwekaTopolojia ya Kafka Streams na maduka ya haliMifano ndogo ya Spark Structured StreamingSemantiki ya mara moja na sinki zisizobadilikaUdhibiti wa hali, pointi za kuangalia, na urejeshoDirisha, alama za maji, na matukio ya marehemuSomo 4Tabaka za kuunganisha na API: GraphQL/REST API, maono yaliyotengenezwa kwa mifumo ya bidhaa, mifumo ya upatikanaji wa data kwa watumiajiChunguza tabaka za kuunganisha na API zinazofunua data ya uchambuzi na kiutendaji. Jifunze mifumo ya GraphQL na REST, kutumia maono yaliyotengenezwa kwa mifumo ya bidhaa, na kubuni upatikanaji salama, unaotawaliwa wa data kwa watumiaji tofauti.
Muundo wa REST API kwa upatikanaji wa dataSchema za GraphQL na wasuluhishi kwa uchambuziKutumia maono yaliyotengenezwa kwa mifumo ya bidhaaMkakati wa kuhifadhi na ukaguzi wa kurasa za APIUsalama wa kiwango cha safu na idhiniToleo na mkataba unaoshirikiana nyumaSomo 5Chaguo na mifumo ya kuingiza kutiririsha: Kafka, Confluent Platform, AWS Kinesis, Google Pub/Sub — watengenezaji, kugawanya, mazingatio ya mageuzi ya schemaElewa majukwaa ya kuingiza kutiririsha ikijumuisha Kafka, Confluent, Kinesis, na Pub/Sub. Jifunze muundo wa watengenezaji, mikakati ya kugawanya, mageuzi ya schema, na mifumo ya kukusanya matukio thabiti, yanayoweza kukua katika vikoa.
Mada za Kafka, kugawanya, na kurudiaVipengele vya mfumo wa Confluent PlatformMatiririko ya AWS Kinesis na matumizi ya firehoseMuundo na kiasi cha Google Pub/SubMuundo wa watengenezaji, kundi, na shinikizo la nyumaMageuzi ya schema na usajili wa schema kwa AvroSomo 6Maduka ya huduma ya wakati halisi: Redis, maduka yanayoungwa mkono na RocksDB, Cassandra, Druid kwa maswali ya OLAP ya kutiririshaSoma maduka ya huduma ya wakati halisi kama Redis, injini zinazoungwa mkono na RocksDB, Cassandra, na Druid. Jifunze mifumo ya upatikanaji, uundaji modeli ya data, na jinsi ya kusaidia maswali ya latency ya chini na mtindo wa OLAP kwenye data mpya ya kutiririsha.
Redis kama kache na hifadhi ya msingi ya dataHuduma zenye hali zinazoungwa mkono na RocksDBUundaji modeli ya data ya Cassandra kwa mfululizo wa wakatiUsanidi wa Druid kwa OLAP ya kutiririshaKupatanisha uthabiti, latency, na gharamaKupanga uwezo na kupunguza pointi motoSomo 7Chaguo za hifadhi ya data kwa uchambuzi: Snowflake, BigQuery, Redshift — CTAS, maono yaliyotengenezwa, makubaliano ya gharama/ubichiLinganisha chaguo za hifadhi ya data kama Snowflake, BigQuery, na Redshift. Jifunze mifumo ya CTAS, maono yaliyotengenezwa, clustering, na jinsi ya kupatanisha gharama, utendaji, na ubichi wa data kwa workloads za uchambuzi.
Hifadhi za kidijitali za Snowflake na upanuziUhifadhi wa BigQuery na uboreshaji wa maswaliUsambazaji wa Redshift na funguo za kupangaMifumo ya CTAS kwa meza zilizotokanaMaono yaliyotengenezwa na sera za kusasishaMakubaliano ya gharama dhidi ya ubichi na kurekebishaSomo 8Kuchakata kundi na kuratibu: Apache Spark, Spark kwenye EMR/Dataproc, DBT kwa mabadiliko, Airflow/Cloud Composer/Managed Workflows kwa kuratibuElewa kuchakata kundi na Spark kwenye EMR na Dataproc, na mabadiliko yanayolenga SQL na dbt. Jifunze mifumo ya kuratibu kwa kutumia Airflow, Cloud Composer, na Managed Workflows kujenga mifereji thabiti, inayoonekana ya kundi.
Hali za nguzo za Spark na ukubwa wa rasilimaliMuundo wa kazi ya Spark kwa ETL na ELTMiundo, majaribio, na hati za dbtMuundo wa DAG ya Airflow na udhibiti wa utegemeziKupanga, kurudia, na SLA kwa kazi za kundiUfuatiliaji, kumbukumbu, na kuonya kwa miferejiSomo 9Hifadhi ya vipengele na jukwaa la data ya ML: Feast, Tecton, au mifereji ya vipengele vya kibinafsi kwa kutumia Delta Lake/BigQuery; huduma ya mtandaoni dhidi ya nje ya mtandaoChunguza hifadhi za vipengele na majukwaa ya data ya ML kwa kutumia Feast, Tecton, au mifereji ya kibinafsi kwenye Delta Lake na BigQuery. Jifunze ufafanuzi wa vipengele, ukoo, na jinsi ya kudhibiti huduma ya mtandaoni dhidi ya nje ya mtandaji kwa tabia thabiti ya modeli.
Dhana za msingi za hifadhi za vipengele na vyomboUsanidi wa Feast na mifumsu ya kuwekaUwezo wa Tecton na chaguo za kuunganishaKujenga mifereji ya vipengele vya kibinafsi kwenye Delta LakeKupima vipengele vya nje ya mtandao katika BigQueryMuundo wa huduma ya vipengele mtandaoni dhidi ya nje ya mtandao