1 වන පාඩමවිශ්ලේෂණ සඳහා මාන සැලසුම් සැලසුම්කරණය: සිදුවීම් සහ මාන mappingවිශ්ලේෂණ සඳහා මාන ආකෘතිකරණය ගවේෂණය කරන්න. ඔබ ව්යාපාර ක්රියාවලි සිදුවීම් සාකච්ඡාවන්ට සම්බන්ධ කරනු ඇත, මාන සහ ගුණාත්මකභාවය නිර්වචනය කරනු ඇත, බහු-බහු සම්බන්ධතා කළමනාකරණය කරනු ඇත, සහ ස්වයං-සේවා BI සහ කාර්යක්ෂම ප්රශ්න සඳහා සැලසුම් සැලසුම්කරණය කරනු ඇත.
ව්යාපාර ක්රියාවලි සහ සිදුවීම් හඳුනාගැනීමසිදුවීම් සාකච්ඡාවන්හි ගුණාත්මකභාවය තෝරාගැනීමනිෂ්පාදිත මාන සැලසුම්කරණයබහු-බහු සම්බන්ධතා කළමනාකරණයදිගු-සුණු සැලසුම් වෙළඳපොළ2 වන පාඩමfact_user_activity: schema ක්ෂේත්ර (event_id, user_id, course_id, event_type, timestamp, duration, device, session_id, ingestion_metadata)වර්තන විශ්ලේෂණ සඳහා fact_user_activity සාකච්ඡාව සැලසුම්කරණය කරන්න. අපි එක් එක් ක්ෂේත්රය නිර්වචනය කරමු, සිදුවීම් ගුණාත්මකභාවය තෝරාගනිමු, සැසි සහ උපකරණ ග්රහණය කරමු, ඇතුළත් කිරීමේ දත්ත ගබඩා කරමු, සහ funnels, engagement, සහ retention වාර්තාකරණයට සහාය දක්වමු.
සිදුවීම් මට්ටම් ගුණාත්මකභාවය නිර්වචනයevent_type සහ වර්ගීකරණ සැලසුම්කරණයසැසි සහ උපකරණ ආරෝපණයingestion_metadata ක්ෂේත්ර භාවිතයfunnels සහ retention සඳහා සහාය3 වන පාඩමනිපදවා ලද මිනුම් සහ සාගන්ධන: දෛනික සක්රිය පරිශීලකයින් (DAU), පාඨමාලාවකට සක්රිය පරිශීලකයින්, රට අනුව පාචමාලාව සම්පූර්ණ කිරීමේ අනුපාතය, පාඨමාලාව සහ කණ්ඩායම් අනුව ආදායමසිදුවීම් සාකච්ඡාවන්ගෙන් නිපදවා ලද මිනුම් සහ සාගන්ධන ගොඩනැගීම ඉගෙන ගන්න. අපි DAU, පාචමාලාවකට ක්රියාකාරීත්වය, සම්පූර්ණ කිරීමේ අනුපාත, සහ කණ්ඩායම් ආදායම ගණනය කරමු, නැවත නිෂ්පාදනය කළ හැකි නිර්වචන සහ කාර්යක්ෂම ගුණාත්මකකරණ රටා ඉස්මතු කරමින්.
DAU සහ MAU නිෂ්පාදිතව නිර්වචනයපාඨමාලාවකට සක්රිය පරිශීලක මිනුම්කොටස් සහ රට අනුව සම්පූර්ණ කිරීමේ අනුපාතයපාඨමාලාව සහ කණ්ඩායම් අනුව ආදායමගබඩාවල සාගන්ධන ගුණාත්මකකරණය4 වන පාඩමමන්දගාමී වෙනස් වන මාන (SCD Type 1/2) සහ කාල සංචාරය/පිටපතමන්දගාමී වෙනස් වන මාන සහ කාල සංචාරය කළමනාකරණය කිරීම ඉගෙන ගන්න. අපි SCD Type 1 සහ Type 2 සංසන්දනය කරමු, ඵලදායී දින පරාස සැලසුම්කරණය කරමු, පිටපත දත්ත ගබඩා කරමු, සහ ගබඩා විශේෂාංග භාවිතයෙන් ඓතිහාසික මාන තත්ත්ව ප්රශ්න කිරීමට භාවිතා කරමු.
SCD Type 1 vs Type 2 භාවිතා කරන්නේ කවදාදඵලදායී දින සහ වත්ම flaggedSQL සහ dbt හි SCD ක්රියාත්මක කිරීමගබඩා කාල සංචාර විශේෂාංග භාවිතයඓතිහාසික මාන නිවැරදිභාව පරීක්ෂා කිරීම5 වන පාඩමදත්ත නිවැරදිභාවය සහ ආසන්න-රියල්-ටයිම් KPI සඳහා කවුළුකරණ උපාය මාර්ගආසන්න-රියල්-ටයිම් KPI සඳහා නිවැරදිභාව උපාය මාර්ග සැලසුම්කරණය කරන්න. අපි latency අයවැය්, watermarking, streaming මිනුම් සඳහා කවුළුකරණ, ප්රමාද වන දත්ත කළමනාකරණය, සහ dashboard විශ්වාසනීය සහ ක්රියාකාරී තබා ගැනීමට නිවැරදිභාව නිරීක්ෂණය ආවරණය කරමු.
නිවැරදිභාව සහ latency ඉලක්ක නිර්වචනයWatermarks සහ ප්රමාද දත්ත කළමනාකරණයTumbling, sliding, සහ session කවුළුආසන්න-රියල්-ටයිම් KPI ගණනයනිවැරදිභාව නිරීක්ෂණය සහ 경고6 වන පාඩමදත්ත පිරිසිදු කිරීමේ පියවර: parsing, type coercion, timestamp normalization, deduplication, enrichmentආකෘතිකරණයට පෙර කුඩා දත්ත පද්ධතිමය ලෙස පිරිසිදු කිරීම ඉගෙන ගන්න. අපි semi-structured ක්ෂේත්ර parsing, දත්ත වර්ග බලදිමින්, කාල කලාප අනුව timestamp normalize කිරීම, records deduplicate කිරීම, සහ reference සහ lookup දත්තවලින් datasets enrich කිරීම ආවරණය කරමු.
JSON, CSV, සහ nested ක්ෂේත්ර parsingType coercion සහ schema validationකාල කලාප normalization සහ ප්රමිතීන්Record deduplication උපාය මාර්ගEnrichment සඳහා reference දත්ත joins7 වන පාඩමdim_course: schema ක්ෂේත්ර (course_id, title, author_id, category, price, published_date)පාඨමාලාව විශ්ලේෂණ සඳහා dim_course මානය සැලසුම්කරණය කරන්න. අපි එක් එක් ක්ෂේත්රය නිර්වචනය කරමු, surrogate keys සාකච්ඡා කරමු, pricing සහ category වෙනස්කම් කළමනාකරණය කරමු, සහ නිවැරදි ඓතිහාසික සහ catalog වාර්තාකරණය සක්රීය කිරීමට publication දින සැලසුම්කරණය කරමු.
එක් එක් dim_course ක්ෂේත්රයේ ව්යාපාර අර්ථයNatural keys vs surrogate course_idපාඨමාලාව මිල සහ category වෙනස්කම්ප්රකාශිත සහ අප්රකාශිත තත්ත්ව සැලසුම්කරණයBI ප්රශ්න සඳහා dim_course indexing8 වන පාඩමdim_user: schema ක්ෂේත්ර (user_id, email_hash, signup_date, country, subscription_status, cohort)පරිශීලක විශ්ලේෂණ සහ කොටස්කරණය සඳහා dim_user මානය සැලසුම්කරණය කරන්න. අපි එක් එක් ක්ෂේත්රය නිර්වචනය කරමු, සංවේදී දත්ත hash කරමු, signup සහ cohorts ලුහුබඳිමින්, සහ වර්ධනය, retention, සහ monetization වාර්තාකරණයට සහාය දක්වන subscription status සැලසුම්කරණය කරමු.
පරිශීලක හඳුනාගැනීම් සහ surrogate keysEmail hashing සහ privacy පාලනsignup_date සහ cohorts සැලසුම්කරණයSubscription_status ජීවන චක්රයරට සහ localization ගුණධර්ම9 වන පාඩමපරිවර්තන රටා: ELT vs ETL, incremental පරිවර්තන, batch vs stream transformsමූලික පරිවර්තන රටා සහ ඒවා භාවිතා කළ යුතු විට තේරුම් ගන්න. අපි ETL සහ ELT සංසන්දනය කරමු, incremental pipelines සැලසුම්කරණය කරමු, සහ batch සහ streaming transforms වෙනස්කම්, පිරිවැය, latency, observability, සහ operational වෙළඳපොළ මත අවධානය යොමු කරමින්.
ETL සහ ELT ආකෘති සංසන්දනයIncremental පරිවර්තන සැලසුම්කරණයBatch processing වාසි අවාසිStreaming සහ micro-batch රටාSLA සහ පිරිවැය අනුව රටා තේරීම10 වන පාඩමපරිවර්තන සඳහා මෙවලම්: dbt, Spark/Databricks, Beam/Flink, SQL-based transformation frameworksප්රධාන පරිවර්තන මෙවලම් සහ ඒවා අතර තේරීම ගවේෂණය කරන්න. අපි dbt, Spark, Databricks, Beam, Flink, සහ SQL frameworks සංසන්දනය කරමු, scalability, orchestration, testing, සහ නූතන දත්ත stacks සමග integration මත අවධානය යොමු කරමින්.
SQL-centric පරිවර්තන සඳහා dbtBig data සඳහා Spark සහ DatabricksStreaming jobs සඳහා Beam සහ FlinkSQL-based transformation frameworksමෙවලම් තේරීමේ මානදණ්ඩ සහ වෙළඳපොළ11 වන පාඩමfact_payments: schema ක්ෂේත්ර (payment_id, user_id, course_id, amount, currency, payment_method, status, timestamp, invoice_id)ආදායම් විශ්ලේෂණ සඳහා fact_payments සාකච්ඡාව සැලසුම්කරණය කරන්න. අපි එක් එක් ක්ෂේත්රය නිර්වචනය කරමු, idempotent ingestion සාකච්ඡා කරමු, currency කළමනාකරණය, payment status, refunds, සහ downstream වාර්තාකරණය සඳහා payments පරිශීලකයින්, පාඨමාලාවන්, සහ invoices සමග සම්බන්ධ කිරීම ගැන සාකච්ඡා කරමු.
fact_payments හි ගුණාත්මකභාවය සහ ප්රධාන යතුරPayment status සහ ජීවන චක්රය සැලසුම්කරණයබහු-මුදල් මිල ගණන් කළමනාකරණයPayments පරිශීලකයින් සහ පාඨමාලාවන් සමග සම්බන්ධ කිරීමRefunds සහ chargebacks ග්රහණය