पाठ 1डेटा सत्यापन नियम: डुप्लिकेट्स, संदर्भीय अखंडता (ग्राहक/उत्पाद), सीमा से बाहर मान, नकारात्मक कीमतें/मात्राएंबिक्री CSV को विश्वसनीय रखने के लिए मजबूत सत्यापन नियम परिभाषित करें। आप डुप्लिकेट्स का पता लगाएंगे, संदर्भीय अखंडता लागू करेंगे, तथा डैशबोर्ड और डाउनस्ट्रीम मॉडल्स को नुकसान पहुंचाने से पहले सीमा से बाहर या नकारात्मक मानों को चिह्नित करेंगे।
डुप्लिकेट ऑर्डर और ऑर्डर लाइनों का पता लगानासंदर्भीय अखंडता कुंजियों की जांचसंख्यात्मक सीमाओं और थ्रेशोल्ड्स का सत्यापननकारात्मक कीमतों और मात्राओं का प्रबंधनपुन: उपयोग योग्य सत्यापन चेकलिस्ट बनानापाठ 2कॉलम सिमेंटिक्स को समझना: order_id, order_date, customer_id, customer_region, product_id, product_category, product_subcategory, quantity, unit_price, discount, revenue, cost, channelडैशबोर्ड में उपयोग होने वाले कोर बिक्री कॉलमों का अर्थ और भूमिका स्पष्ट करें। आप पहचानकर्ताओं, तिथियों, उत्पाद विशेषताओं, मात्राओं और मौद्रिक फील्ड्स को मैप करेंगे, तथा मॉडल्स और विज़ुअलाइज़ेशन्स में सुसंगत सिमेंटिक्स सुनिश्चित करेंगे।
ऑर्डर-स्तरीय पहचानकर्ता और ग्रेन चयनग्राहक और क्षेत्र पहचान फील्ड्सउत्पाद, श्रेणी और उपश्रेणी भूमिकाएंमात्रा, unit_price, छूट और राजस्वलागत, चैनल और मार्जिन-संबंधी फील्ड्सपाठ 3छूट और मूल्य गणनाओं का प्रबंधन: unit_price, quantity और discount से राजस्व पुनर्गणना तथा रिपोर्टेड राजस्व से सामंजस्यराजस्व और मूल्य मेट्रिक्स को पुनर्गणना और सत्यापित करना समझें। आप unit_price, quantity और discount से लाइन राजस्व गणना करेंगे, रिपोर्टेड टोटल्स से सामंजस्य करेंगे, तथा समीक्षा के लिए असंगतियों को चिह्नित करेंगे।
unit_price और quantity से राजस्व सूत्रप्रतिशत और निरपेक्ष छूट लागू करनागणना और रिपोर्टेड राजस्व का सामंजस्यअसंगत छूट पैटर्न का पता लगानामूल्य निर्धारण और छूट लॉजिक दस्तावेजीकरणपाठ 4समय-आधारित परिवर्तन: वर्ष, तिमाही, माह, सप्ताह, सप्ताह का दिन, रोलिंग विंडो, और वित्तीय कैलेंडर निकालनाविश्लेषण के लिए ऑर्डर तिथियों को समृद्ध समय विशेषताओं में परिवर्तित करना समझें। आप कैलेंडर और वित्तीय विशेषताएं निकालेंगे, रोलिंग विंडो बनाएंगे, तथा डैशबोर्ड और समय-श्रृंखला मॉडल्स के लिए सुसंगत समय फील्ड्स तैयार करेंगे।
वर्ष, तिमाही, माह और सप्ताह निकालनासप्ताह का दिन और वीकेंड संकेतक निकालनारोलिंग और मूविंग विंडो मेट्रिक्स बनानावित्तीय कैलेंडर और ऑफसेट लागू करनाडैशबोर्ड के लिए समय ग्रेन संरेखित करनापाठ 5डेटा सफाई परिवर्तन: ट्रिमिंग, केस सामान्यीकरण, क्षेत्र और चैनल लेबल्स मानकीकृत करनाकच्चे बिक्री CSV को सुसंगत और विश्लेषण-तैयार बनाने के लिए व्यावहारिक सफाई चरणों का अन्वेषण करें। आप व्हाइटस्पेस ट्रिम करेंगे, केस सामान्यीकृत करेंगे, तथा डुप्लिकेट्स और टूटे डैशबोर्ड फिल्टर्स से बचने के लिए क्षेत्र और चैनल लेबल्स मानकीकृत करेंगे।
व्हाइटस्पेस और अदृश्य वर्ण ट्रिम करनाटेक्स्ट आयामों के लिए केस सामान्यीकरणक्षेत्र और चैनल टैक्सोनॉमी मानकीकृत करनालगभग-डुप्लिकेट लेबल वेरिएंट्स मर्ज करनापुन: उपयोग के लिए सफाई नियम दस्तावेजीकरणपाठ 6व्युत्पन्न मेट्रिक्स और परिवर्तन: लाभ = राजस्व - लागत, लाभ_मार्जिन = लाभ / राजस्व, सकल_मार्जिन, AOV = राजस्व / ऑर्डर_गिनती, unit_total = quantity * unit_priceकच्चे CSV फील्ड्स से प्रमुख बिक्री मेट्रिक्स व्युत्पन्न करना सीखें। आप लाभ, मार्जिन, AOV और unit टोटल्स गणना करेंगे, तथा सूत्रों को सुसंगत, अच्छी तरह दस्तावेजीकृत और व्यवसाय परिभाषाओं से संरेखित सुनिश्चित करेंगे।
लाभ और सकल मार्जिन गणनालाभ_मार्जिन सुरक्षित रूप से गणनाराजस्व और ऑर्डर से AOV व्युत्पन्न करनाquantity और unit_price से unit टोटल्समेट्रिक्स को व्यवसाय परिभाषाओं से संरेखित करनापाठ 7पुनरुत्पाद्य ETL के लिए तकनीकें: दस्तावेजीकृत चरण, स्क्रिप्ट्स, नोटबुक्स, और CSV आयात अखंडता के लिए चेकसम्सबिक्री CSV के लिए पुनरुत्पाद्य ETL पाइपलाइन डिजाइन करना सीखें। आप परिवर्तनों को स्क्रिप्ट करेंगे, संस्करण ट्रैक करेंगे, अन्वेषण के लिए नोटबुक्स उपयोग करेंगे, तथा समय के साथ आयात अखंडता की गारंटी के लिए चेकसम्स और सत्यापन चरण लागू करेंगे।
दोहराने योग्य CSV परिवर्तनों को स्क्रिप्ट करनाअन्वेषणात्मक ETL के लिए नोटबुक्स उपयोगETL कोड और कॉन्फ़िगरेशन संस्करणीकरणचेकसम्स और फाइल अखंडता सत्यापनस्वचालित ETL रन और लॉगिंगपाठ 8लुप्त मान और शून्य पैटर्न: पता लगाने की विधियां, इम्पुटेशन रणनीतियां, और पंक्तियों को ड्रॉप करने का समयबिक्री CSV में लुप्त या शून्य मानों का पता लगाने और उपचार के लिए तकनीकें मास्टर करें। आप शून्य पैटर्न प्रोफाइल करेंगे, इम्पुटेशन रणनीतियां चुनेंगे, पंक्तियों को ड्रॉप करने का निर्णय लेंगे, तथा डाउनस्ट्रीम मेट्रिक्स की रक्षा के लिए धारणाओं को दस्तावेजीकृत करेंगे।
कुंजी कॉलमों में लुप्तता प्रोफाइलिंगशून्य पैटर्न और सहसंबंध विज़ुअलाइज़ेशनसंख्यात्मक फील्ड्स के लिए इम्पुटेशन रणनीतियांश्रेणीबद्ध फील्ड्स के लिए इम्पुटेशन रणनीतियांपंक्तियों या कॉलमों को सुरक्षित रूप से ड्रॉप करने के नियमपाठ 9डेटा प्रकार और पार्सिंग: तिथि प्रारूप, संख्यात्मक प्रकार, श्रेणीबद्ध एन्कोडिंग, स्ट्रिंग बनाम संख्यात्मक मान संभालनाबिक्री CSV में तिथियां, संख्याएं और श्रेणियां सही ढंग से पार्स करना सीखें। आप टेक्स्ट को संख्यात्मक फील्ड्स से अलग करेंगे, स्थान-जागरूक पार्सिंग लागू करेंगे, तथा रिफ्रेशेस में स्थिर रहने वाली मजबूत श्रेणीबद्ध एन्कोडिंग डिजाइन करेंगे।
CSV आयात में कॉलम डेटा प्रकार पता लगानाएकाधिक स्थान प्रारूपों से तिथियां पार्स करनासंख्यात्मक विभाजक और मुद्रा प्रतीकों संभालनास्थिर श्रेणीबद्ध एन्कोडिंग डिजाइन करनामिश्रित-प्रकार कॉलमों को सुरक्षित रूप से परिवर्तित करनापाठ 10मल्टी-लाइन ऑर्डर से निपटना और ऑर्डर बनाम ऑर्डर-लाइन स्तर पर एकत्रीकरणबिक्री CSV में कई लाइनों में फैले ऑर्डर संभालना सीखें। आप ऑर्डर और ऑर्डर-लाइन ग्रेन अलग करेंगे, सही एकत्रीकरण करेंगे, तथा डैशबोर्ड में राजस्व, मात्रा और छूट के डबल काउंटिंग से बचेंगे।
ऑर्डर बनाम ऑर्डर-लाइन ग्रेन पहचाननाऑर्डर स्तर पर राजस्व एकत्रीकरणलाइनों में छूट सारांशित करनारोलअप में डबल काउंटिंग से बचनाडैशबोर्ड मेट्रिक्स के लिए ग्रेन चुनना