पाठ 1ॲनालिटिक्ससाठी डायमेंशनल मॉडेल डिझाइन: फॅक्ट्स आणि डायमेंशन्स मॅपिंगॲनालिटिक्ससाठी डायमेंशनल मॉडेलिंग एक्सप्लोर करा. तुम्ही बिझनेस प्रोसेसेस फॅक्ट टेबल्समध्ये मॅप कराल, डायमेंशन्स आणि ग्रेन डिफाइन कराल, मनी-टू-मनी रिलेशनशिप्स हाताळाल आणि स्व-सेवा BI आणि परफॉर्मंट क्वेरीज सपोर्ट करणाऱ्या स्कीमास डिझाइन कराल.
Identifying business processes and factsChoosing the grain of fact tablesDesigning conformed dimensionsHandling many-to-many relationshipsStar vs snowflake schema trade-offsपाठ 2fact_user_activity: स्कीमा फील्ड्स (event_id, user_id, course_id, event_type, timestamp, duration, device, session_id, ingestion_metadata)बिहेवियरल ॲनालिटिक्ससाठी fact_user_activity टेबल मॉडेल करा. प्रत्येक फील्ड डिफाइन करा, इव्हेंट ग्रेन निवडा, सेशन्स आणि डिव्हायसेस कॅप्चर करा, इंगेस्टन मेटाडेटा स्टोर करा आणि फनल्स, एंगेजमेंट आणि रिटेन्शन रिपोर्टिंग सपोर्ट करा.
Defining the event-level grainModeling event_type and taxonomiesSession and device attributionUsing ingestion_metadata fieldsSupporting funnels and retentionपाठ 3डेरिव्ह्ड मेट्रिक्स आणि ॲग्रिगेशन्स: दैनिक सक्रिय वापरकर्ते (DAU), कोर्सनुसार सक्रिय वापरकर्ते, देशनुसार कोर्स कॉम्प्लिशन रेट, कोर्स आणि कोहोर्टनुसार रेव्हेन्यूफॅक्ट टेबल्समधून डेरिव्ह्ड मेट्रिक्स आणि ॲग्रिगेशन्स बिल्ड करण्याचे शिका. DAU, प्रति-कोर्स ॲक्टिव्हिटी, कॉम्प्लिशन रेट्स आणि कोहोर्ट रेव्हेन्यू कम्प्युट करा, रीप्रोड्यूसिबल डेफिनिशन्स आणि कार्यक्षम मटेरियलायझेशन पॅटर्न्सवर भर देऊन.
Defining DAU and MAU consistentlyActive users per course metricsCompletion rate by segment and countryRevenue by course and cohortMaterializing aggregates in warehousesपाठ 4हळू बदलणाऱ्या डायमेंशन्स (SCD टाइप १/२) हाताळणे आणि टाइम-ट्रॅव्हल/व्हर्जनिंगहळू बदलणाऱ्या डायमेंशन्स आणि टाइम-ट्रॅव्हल मॅनेज करण्याचे शिका. SCD टाइप १ आणि २ची तुलना करा, प्रभावी तारीख रेंजेस डिझाइन करा, व्हर्जन मेटाडेटा स्टोर करा आणि हिस्टोरिकल डायमेंशन स्टेट्स क्वेरी करण्यासाठी वेअरहाऊस वैशिष्ट्ये वापरा.
When to use SCD Type 1 vs Type 2Effective dates and current flagsImplementing SCD in SQL and dbtUsing warehouse time-travel featuresTesting historical dimension correctnessपाठ 5निअर-रिअल-टाइम KPIs साठी डेटा फ्रेशनेस आणि विंडोइंग धोरणेनिअर-रिअल-टाइम KPIs साठी फ्रेशनेस धोरणे डिझाइन करा. लेटन्सी बजेट्स, वॉटरमार्किंग, स्ट्रीमिंग मेट्रिक्ससाठी विंडोइंग, उशीरलेल्या डेटाची हाताळणी आणि डॅशबोर्ड्स विश्वासार्ह आणि ॲक्शनेबल ठेवण्यासाठी फ्रेशनेस मॉनिटरिंग कव्हर करा.
Defining freshness and latency targetsWatermarks and late data handlingTumbling, sliding, and session windowsNear-real-time KPI computationMonitoring and alerting on freshnessपाठ 6डेटा क्लेन्झिंग स्टेप्स: पार्सिंग, टाइप कोर्शन, टाइमस्टॅम्प नॉर्मलायझेशन, डिडुप्लिकेशन, एनरिचमेंटमॉडेलिंगपूर्वी रॉ डेटा व्यवस्थित क्लीन करण्याचे शिका. सेमी-स्ट्रक्चर्ड फील्ड्स पार्सिंग, डेटा प्रकार लागू करणे, टाइमझोन्समध्ये टाइमस्टॅम्प नॉर्मलायझ करणे, रेकॉर्ड्स डिडुप्लिकेट करणे आणि रेफरन्स आणि लुकअप डेटाने डेटासेट्स एनरिच करणे कव्हर करा.
Parsing JSON, CSV, and nested fieldsType coercion and schema validationTimezone normalization and standardsRecord deduplication strategiesReference data joins for enrichmentपाठ 7dim_course: स्कीमा फील्ड्स (course_id, title, author_id, category, price, published_date)कोर्स ॲनालिटिक्स सपोर्ट करण्यासाठी dim_course डायमेंशन डिझाइन करा. प्रत्येक फील्ड डिफाइन करा, सरोगेट कीज चर्चा करा, प्राईसिंग आणि कॅटेगरी बदल हाताळा आणि अचूक हिस्टोरिकल आणि कॅटलॉग रिपोर्टिंगसाठी पब्लिकेशन तारखा मॉडेल करा.
Business meaning of each dim_course fieldNatural keys vs surrogate course_idHandling course price and category changesModeling published and unpublished statesIndexing dim_course for BI queriesपाठ 8dim_user: स्कीमा फील्ड्स (user_id, email_hash, signup_date, country, subscription_status, cohort)यूजर ॲनालिटिक्स आणि सेगमेंटेशनसाठी dim_user डायमेंशन डिझाइन करा. प्रत्येक फील्ड डिफाइन करा, संवेदनशील डेटा हॅश करा, साइनअप आणि कोहोर्ट्स ट्रॅक करा आणि ग्रोथ, रिटेन्शन आणि मोनेटायझेशन रिपोर्टिंग सपोर्ट करण्यासाठी सबस्क्रिप्शन स्टेटस मॉडेल करा.
User identifiers and surrogate keysEmail hashing and privacy controlsModeling signup_date and cohortsSubscription_status lifecycleCountry and localization attributesपाठ 9ट्रान्सफॉर्मेशन पॅटर्न्स: ELT विरुद्ध ETL, इन्क्रिमेंटल ट्रान्सफॉर्मेशन्स, बॅच विरुद्ध स्ट्रीम ट्रान्सफॉर्म्सकोर ट्रान्सफॉर्मेशन पॅटर्न्स आणि कधी लागू करावेत हे समजून घ्या. ETL आणि ELTची तुलना करा, इन्क्रिमेंटल पाइपलाइन्स डिझाइन करा आणि बॅच आणि स्ट्रीमिंग ट्रान्सफॉर्म्सची तुलना करा, खर्च, लेटन्सी, ऑब्झर्व्हेबिलिटी आणि ऑपरेशनल ट्रेडऑफ्सवर फोकस करून.
Comparing ETL and ELT architecturesDesigning incremental transformationsBatch processing pros and consStreaming and micro-batch patternsChoosing patterns by SLA and costपाठ 10ट्रान्सफॉर्मेशन्ससाठी टूल्स: dbt, Spark/Databricks, Beam/Flink, SQL-बेस्ड ट्रान्सफॉर्मेशन फ्रेमवर्क्सकी ट्रान्सफॉर्मेशन टूल्स आणि त्यांच्यात निवडण्याचे सर्व्हे करा. dbt, Spark, Databricks, Beam, Flink आणि SQL फ्रेमवर्क्सची तुलना करा, स्केलेबिलिटी, ऑर्केस्ट्रेशन, टेस्टिंग आणि मॉडर्न डेटा स्टॅक्सशी इंटिग्रेशनवर फोकस करून.
dbt for SQL-centric transformationsSpark and Databricks for big dataBeam and Flink for streaming jobsSQL-based transformation frameworksTool selection criteria and trade-offsपाठ 11fact_payments: स्कीमा फील्ड्स (payment_id, user_id, course_id, amount, currency, payment_method, status, timestamp, invoice_id)रेव्हेन्यू ॲनालिटिक्ससाठी fact_payments टेबल मॉडेल करा. प्रत्येक फील्ड डिफाइन करा, idempotent इंगेस्टन चर्चा करा, करन्सी हाताळणी, पेमेंट स्टेटस, रिफंड्स आणि डाउनस्ट्रीम रिपोर्टिंगसाठी पेमेंट्सला यूजर्स, कोर्सेस आणि इन्व्हॉईसेस लिंक करा.
Grain and primary key of fact_paymentsModeling payment status and lifecycleHandling multi-currency amountsLinking payments to users and coursesCapturing refunds and chargebacks