పాఠం 1అనలిటిక్స్ కోసం డైమెన్షనల్ మోడల్ డిజైన్: ఫాక్ట్లు మరియు డైమెన్షన్ల మ్యాపింగ్అనలిటిక్స్ కోసం డైమెన్షనల్ మోడలింగ్ను అన్వేషించండి. మీరు బిజినెస్ ప్రాసెస్లను ఫాక్ట్ టేబుల్స్కు మ్యాప్ చేస్తారు, డైమెన్షన్లు మరియు గ్రెయిన్ను నిర్వచిస్తారు, మెనీ-టు-మెనీ రిలేషన్షిప్లను హ్యాండిల్ చేస్తారు, సెల్ఫ్-సర్వీస్ BI మరియు పెర్ఫార్మెంట్ క్వెరీలను సపోర్ట్ చేసే స్కీమాలను డిజైన్ చేస్తారు.
Identifying business processes and factsChoosing the grain of fact tablesDesigning conformed dimensionsHandling many-to-many relationshipsStar vs snowflake schema trade-offsపాఠం 2fact_user_activity: స్కీమా ఫీల్డ్లు (event_id, user_id, course_id, event_type, timestamp, duration, device, session_id, ingestion_metadata)బిహేవియరల్ అనలిటిక్స్ కోసం fact_user_activity టేబుల్ను మోడల్ చేయండి. ప్రతి ఫీల్డ్ను నిర్వచిస్తాము, ఈవెంట్ గ్రెయిన్ను ఎంచుకుంటాము, సెషన్లు మరియు డివైస్లను క్యాప్చర్ చేస్తాము, ఇన్జెస్ట్ మెటాడేటాను స్టోర్ చేస్తాము, ఫన్నెల్స్, ఎంగేజ్మెంట్, రిటెన్షన్ రిపోర్టింగ్ను సపోర్ట్ చేస్తాము.
Defining the event-level grainModeling event_type and taxonomiesSession and device attributionUsing ingestion_metadata fieldsSupporting funnels and retentionపాఠం 3డెరైవ్డ్ మెట్రిక్లు మరియు అగ్రిగేషన్లు: డైలీ యాక్టివ్ యూజర్లు (DAU), కోర్స్ పర్ యాక్టివ్ యూజర్లు, దేశం ప్రకారం కోర్స్ కంప్లీషన్ రేట్, కోర్స్ మరియు కోహార్ట్ ప్రకారం రెవెన్యూఫాక్ట్ టేబుల్స్ నుండి డెరైవ్డ్ మెట్రిక్లు మరియు అగ్రిగేషన్లను బిల్డ్ చేయడం నేర్చుకోండి. DAU, పర్-కోర్స్ యాక్టివిటీ, కంప్లీషన్ రేట్లు, కోహార్ట్ రెవెన్యూ కంప్యూట్ చేస్తాము, రీప్రొడ్యూసబుల్ నిర్వచనాలు మరియు సమర్థవంతమైన మెటీరియలైజేషన్ ప్యాటర్న్లపై ఒత్తిడి వేస్తాము.
Defining DAU and MAU consistentlyActive users per course metricsCompletion rate by segment and countryRevenue by course and cohortMaterializing aggregates in warehousesపాఠం 4స్లోలీ చేంజింగ్ డైమెన్షన్లు (SCD టైప్ 1/2) హ్యాండ్లింగ్ మరియు టైమ్-ట్రావెల్/వెర్షనింగ్స్లోలీ చేంజింగ్ డైమెన్షన్లు మరియు టైమ్-ట్రావెల్ను మేనేజ్ చేయడం నేర్చుకోండి. SCD టైప్ 1 మరియు టైప్ 2ను పోల్చి, సమర్థవంతమైన తేదీ రేంజ్లను డిజైన్ చేసి, వెర్షన్ మెటాడేటాను స్టోర్ చేసి, హిస్టారికల్ డైమెన్షన్ స్టేట్లను క్వెరీ చేయడానికి వేర్హౌస్ ఫీచర్లను ఉపయోగించండి.
When to use SCD Type 1 vs Type 2Effective dates and current flagsImplementing SCD in SQL and dbtUsing warehouse time-travel featuresTesting historical dimension correctnessపాఠం 5డేటా ఫ్రెష్నెస్ మరియు నియర్-రియల్-టైమ్ KPIల కోసం విండోయింగ్ వ్యూహాలునియర్-రియల్-టైమ్ KPIల కోసం ఫ్రెష్నెస్ వ్యూహాలను డిజైన్ చేయండి. లేటెన్సీ బడ్జెట్లు, వాటర్మార్కింగ్, స్ట్రీమింగ్ మెట్రిక్ల కోసం విండోయింగ్, లేట్-అరైవింగ్ డేటా హ్యాండ్లింగ్, డాష్బోర్డ్లను విశ్వసనీయం మరియు యాక్షనబుల్గా ఉంచడానికి ఫ్రెష్నెస్ మానిటరింగ్ కవర్ చేస్తాము.
Defining freshness and latency targetsWatermarks and late data handlingTumbling, sliding, and session windowsNear-real-time KPI computationMonitoring and alerting on freshnessపాఠం 6డేటా క్లెన్సింగ్ స్టెప్లు: పార్సింగ్, టైప్ కోర్షన్, టైమ్స్టాంప్ నార్మలైజేషన్, డెడ్యూప్లికేషన్, ఎన్రిచ్మెంట్మోడలింగ్కు ముందు రా డేటాను సిస్టమాటిక్గా క్లీన్ చేయడం ఎలా నేర్చుకోండి. సెమీ-స్ట్రక్చర్డ్ ఫీల్డ్ల పార్సింగ్, డేటా టైప్లను ఎన్ఫోర్స్ చేయడం, టైమ్జోన్ల అక్రోస్ టైమ్స్టాంప్ల నార్మలైజేషన్, రికార్డ్ల డెడ్యూప్లికేట్ చేయడం, రెఫరెన్స్ మరియు లుకప్ డేటాతో డేటాసెట్లను ఎన్రిచ్ చేయడం కవర్ చేస్తాము.
Parsing JSON, CSV, and nested fieldsType coercion and schema validationTimezone normalization and standardsRecord deduplication strategiesReference data joins for enrichmentపాఠం 7dim_course: స్కీమా ఫీల్డ్లు (course_id, title, author_id, category, price, published_date)కోర్స్ అనలిటిక్స్ను సపోర్ట్ చేయడానికి dim_course డైమెన్షన్ను డిజైన్ చేయండి. ప్రతి ఫీల్డ్ను నిర్వచించి, సర్రోగేట్ కీలు చర్చించి, ప్రైసింగ్ మరియు కేటగిరీ మార్పులను హ్యాండిల్ చేసి, ఖచ్చితమైన హిస్టారికల్ మరియు క్యాటలాగ్ రిపోర్టింగ్ను ఎనాబుల్ చేయడానికి పబ్లిష్ తేదీలను మోడల్ చేయండి.
Business meaning of each dim_course fieldNatural keys vs surrogate course_idHandling course price and category changesModeling published and unpublished statesIndexing dim_course for BI queriesపాఠం 8dim_user: స్కీమా ఫీల్డ్లు (user_id, email_hash, signup_date, country, subscription_status, cohort)యూజర్ అనలిటిక్స్ మరియు సెగ్మెంటేషన్ కోసం dim_user డైమెన్షన్ను డిజైన్ చేయండి. ప్రతి ఫీల్డ్ను నిర్వచించి, సెన్సిటివ్ డేటాను హ్యాష్ చేసి, సైనప్ మరియు కోహార్ట్లను ట్రాక్ చేసి, గ్రోత్, రిటెన్షన్, మోనిటైజేషన్ రిపోర్టింగ్ను సపోర్ట్ చేయడానికి సబ్స్క్రిప్షన్ స్టేటస్ను మోడల్ చేయండి.
User identifiers and surrogate keysEmail hashing and privacy controlsModeling signup_date and cohortsSubscription_status lifecycleCountry and localization attributesపాఠం 9ట్రాన్స్ఫర్మేషన్ ప్యాటర్న్లు: ELT vs ETL, ఇంక్రిమెంటల్ ట్రాన్స్ఫర్మేషన్లు, బ్యాచ్ vs స్ట్రీమ్ ట్రాన్స్ఫర్మ్లుకోర్ ట్రాన్స్ఫర్మేషన్ ప్యాటర్న్లు మరియు వాటిని ఎప్పుడు అప్లై చేయాలో అర్థం చేసుకోండి. ETL మరియు ELTను పోల్చి, ఇంక్రిమెంటల్ పైప్లైన్లను డిజైన్ చేసి, బ్యాచ్ మరియు స్ట్రీమింగ్ ట్రాన్స్ఫర్మ్లను కాంట్రాస్ట్ చేస్తూ, కాస్ట్, లేటెన్సీ, ఆబ్జర్వబిలిటీ, ఆపరేషనల్ ట్రేడ్-ఆఫ్లపై దృష్టి పెడతాము.
Comparing ETL and ELT architecturesDesigning incremental transformationsBatch processing pros and consStreaming and micro-batch patternsChoosing patterns by SLA and costపాఠం 10ట్రాన్స్ఫర్మేషన్ల కోసం టూల్స్: dbt, Spark/Databricks, Beam/Flink, SQL-బేస్డ్ ట్రాన్స్ఫర్మేషన్ ఫ్రేమ్వర్క్లుకీ ట్రాన్స్ఫర్మేషన్ టూల్స్ను సర్వే చేసి వాటి మధ్య ఎంచుకోవడం ఎలా అని తెలుసుకోండి. dbt, Spark, Databricks, Beam, Flink, SQL ఫ్రేమ్వర్క్లను పోల్చి, స్కేలబిలిటీ, ఆర్కెస్ట్రేషన్, టెస్టింగ్, మోడరన్ డేటా స్టాక్లతో ఇంటిగ్రేషన్ పై దృష్టి పెడతాము.
dbt for SQL-centric transformationsSpark and Databricks for big dataBeam and Flink for streaming jobsSQL-based transformation frameworksTool selection criteria and trade-offsపాఠం 11fact_payments: స్కీమా ఫీల్డ్లు (payment_id, user_id, course_id, amount, currency, payment_method, status, timestamp, invoice_id)రెవెన్యూ అనలిటిక్స్ కోసం fact_payments టేబుల్ను మోడల్ చేయండి. ప్రతి ఫీల్డ్ను నిర్వచించి, ఐడెంపోటెంట్ ఇన్జెస్ట్ చర్చించి, కరెన్సీ హ్యాండ్లింగ్, పెయ్మెంట్ స్టేటస్, రిఫండ్లు, డౌన్స్ట్రీమ్ రిపోర్టింగ్ కోసం యూజర్లు, కోర్సులు, ఇన్వాయిస్లకు పెయ్మెంట్లను లింక్ చేయడం ఎలా అని తెలుసుకోండి.
Grain and primary key of fact_paymentsModeling payment status and lifecycleHandling multi-currency amountsLinking payments to users and coursesCapturing refunds and chargebacks