पाठ 1फीचर स्केलिंग और परिवर्तन: तिरछे राजस्व/मात्रा के लिए लॉग ट्रांसफॉर्म, मजबूत स्केलिंगराजस्व और मात्रा में भिन्नता स्थिर करने और तिरछापन कम करने के लिए स्केलिंग और परिवर्तनों को लागू करें, लॉग ट्रांसफॉर्म, मजबूत स्केलिंग, और पावर ट्रांसफॉर्म का उपयोग करते हुए जहां आवश्यक हो व्याख्या क्षमता को संरक्षित रखें।
तिरछापन और भारी पूंछों का निदानलॉग और पावर परिवर्तनमानक, मिन-मैक्स, और मजबूत स्केलिंगस्केलिंग पाइपलाइन्स sklearn के साथव्याख्या के लिए व्युत्क्रम परिवर्तनपाठ 2डेटटाइम फीचर इंजीनियरिंग: सप्ताह का दिन, घंटा, मौसमीता, ऑर्डर_डेट और ग्राहक इतिहास से नवीनता और कार्यकाल फीचर्सऑर्डर तिथियों और ग्राहक इतिहास से समय-आधारित फीचर्स इंजीनियर करें, जिसमें सप्ताह का दिन, घंटा, मौसमीता, नवीनता, और कार्यकाल शामिल हो, पूर्वानुमान और वर्गीकरण कार्यों में रिसाव से बचते हुए समय क्रम का सम्मान करते हुए।
कैलेंडर-आधारित फीचर्स निकालनासमय चरों की चक्रीय एन्कोडिंगमौसमीता और अवकाश संकेतकनवीनता और कार्यकाल फीचर डिजाइनसमय-जागरूक रिसाव रोकथामपाठ 3संख्यात्मक (मीडियन, KNN, मॉडल-आधारित) और वर्गीकृत क्षेत्रों (मोड, 'अज्ञात') के लिए इम्पुटेशन रणनीतियांमीडियन, KNN, मॉडल-आधारित, मोड, और स्पष्ट 'अज्ञात' श्रेणियों सहित संख्यात्मक और वर्गीकृत इम्पुटेशन रणनीतियों की तुलना करें, पूर्वाग्रह, भिन्नता, और पूर्ण डेटासेट की मजबूती का मूल्यांकन करने के लिए निदान के साथ।
लुप्तता तंत्र और पैटर्नसरल संख्यात्मक इम्पुटेशन विधियांKNN और मॉडल-आधारित इम्पुटेशनवर्गीकृत मोड और 'अज्ञात' बिनलुप्तता संकेतक ध्वजों का उपयोगपाठ 4चयनित भविष्यवाणी के लिए लक्ष्य चर बनाना (द्विआधारी रिटर्न, सतत राजस्व, देरी डिलीवरी लेबल)मुख्य व्यवसाय भविष्यवाणियों के लिए लक्ष्य चर परिभाषित और निर्माण करें, जिसमें द्विआधारी रिटर्न ध्वज, सतत राजस्व, और देरी डिलीवरी लेबल शामिल हों, स्पष्ट परिभाषाओं और मूल्यांकन मेट्रिक्स से संरेखण सुनिश्चित करते हुए।
भविष्यवाणी उद्देश्य चुननारिटर्न और चर्न लेबल परिभाषित करनाराजस्व और मार्जिन रिग्रेशन लक्ष्यदेरी डिलीवरी और SLA उल्लंघन लेबललक्ष्यों को मेट्रिक्स से संरेखित करनापाठ 5एन्कोडिंग तकनीकें: वन-हॉट, लक्ष्य एन्कोडिंग, फ्रीक्वेंसी एन्कोडिंग, उच्च-कार्डिनैलिटी फीचर्स के लिए एम्बेडिंग्सवर्गीकृत चरों के लिए एन्कोडिंग विधियों का अन्वेषण करें, सरल वन-हॉट से लक्ष्य, फ्रीक्वेंसी, और एम्बेडिंग-आधारित एन्कोडिंग तक, रिसाव रोकथाम, नियमितकरण, और उच्च-कार्डिनैलिटी फीचर्स संभालने पर मार्गदर्शन के साथ।
वन-हॉट एन्कोडिंग कब उपयोग करेंरिसाव नियंत्रण के साथ लक्ष्य एन्कोडिंगफ्रीक्वेंसी और काउंट एन्कोडिंगहैशिंग और दुर्लभ श्रेणी संभालनाश्रेणियों के लिए सीखी गई एम्बेडिंग्सपाठ 6मूल्य, मात्रा, डिलीवरी_टाइम_डेज, और राजस्व के लिए आउटलायर पहचान और संभालनासांख्यिकीय नियमों और व्यवसाय तर्क का उपयोग करके मूल्य, मात्रा, डिलीवरी समय, और राजस्व में आउटलायर्स का पता लगाना, निदान, और उपचार सीखें, डाउनस्ट्रीम मॉडलों को अस्थिरता से बचाते हुए सूचना हानि को न्यूनतम रखें।
एकवर्गीय आउटलायर पहचान नियमबहु-वर्गीय और संदर्भीय आउटलायर्सकैपिंग, ट्रिमिंग, और विंसोराइजेशनव्यवसाय-नियम आधारित आउटलायर ध्वजमॉडल प्रशिक्षण पर आउटलायर्स का प्रभावपाठ 7एग्रीगेशन और ग्राहक-स्तरीय फीचर्स: ऐतिहासिक रिटर्न दर, औसत ऑर्डर मूल्य, फ्रीक्वेंसी, अंतिम ऑर्डर से समयग्राहक जीवनकाल व्यवहार को कैप्चर करने और विभाजन व भविष्यवाणी प्रदर्शन सुधारने के लिए ऐतिहासिक रिटर्न दर, औसत ऑर्डर मूल्य, खरीद फ्रीक्वेंसी, और नवीनता जैसे ग्राहक-स्तरीय एग्रीगेशन बनाएं।
ग्राहक-स्तरीय एग्रीगेशन डिजाइनऐतिहासिक रिटर्न और शिकायत दरेंऔसत ऑर्डर मूल्य और टोकरी आकारखरीद फ्रीक्वेंसी और नवीनताग्राहक जीवनकाल मूल्य प्रॉक्सीपाठ 8प्रमोशन और मूल्य निर्धारण फीचर्स: प्रभावी_इकाई_मूल्य, छूट_प्रतिशत, छूट_लागू ध्वजप्रमोशनल तीव्रता, मार्जिन प्रभाव, और समय के साथ मूल्य परिवर्तनों के प्रति ग्राहक संवेदनशीलता को कैप्चर करने के लिए प्रभावी इकाई मूल्य, छूट प्रतिशत, और छूट ध्वज जैसे प्रमोशन और मूल्य निर्धारण फीचर्स बनाएं।
प्रभावी इकाई मूल्य गणनाछूट प्रतिशत और गहराईद्विआधारी और बहु-स्तरीय प्रमो ध्वजस्टैक्ड और ओवरलैपिंग प्रमोशन्समूल्य लोच प्रॉक्सी फीचर्सपाठ 9समय-श्रृंखला/ऑर्डर डेटा के लिए ट्रेन/टेस्ट स्प्लिट रणनीतियां (समय-आधारित स्प्लिट, लक्ष्य से स्तरीकृत, ग्राहक होल्डआउट)समय-क्रमित लेनदेन डेटा के लिए ट्रेन और टेस्ट स्प्लिट रणनीतियां डिजाइन करें, समय-आधारित स्प्लिट, लक्ष्य से स्तरीकरण, और ग्राहक होल्डआउट योजनाओं का उपयोग करके यथार्थवादी और निष्पक्ष प्रदर्शन अनुमान प्राप्त करें।
समय डेटा में रैंडम स्प्लिट्स के खतरेसमय-आधारित और रोलिंग विंडो स्प्लिट्सअसंतुलित लक्ष्यों के लिए स्तरीकृत स्प्लिट्सग्राहक और स्टोर स्तर होल्डआउटसमय डेटा के लिए क्रॉस-वैलिडेशनपाठ 10भौगोलिक और लॉजिस्टिक्स फीचर्स: देश-स्तरीय मेट्रिक्स, शिपिंग जोन, सामान्य डिलीवरी_टाइम वितरणदेश-स्तरीय मेट्रिक्स, शिपिंग जोन, और डिलीवरी समय वितरण का उपयोग करके भौगोलिक और लॉजिस्टिक्स फीचर्स डिजाइन करें ताकि भविष्यवाणी मॉडलों में परिचालन बाधाओं, क्षेत्रीय व्यवहार, और सेवा-स्तर परिवर्तनशीलता को कैप्चर किया जा सके।
देश और क्षेत्र स्तर एग्रीगेशनशिपिंग जोन और लेन परिभाषित करनाडिलीवरी समय वितरण फीचर्सदूरी और क्रॉस-सीमा संकेतकसेवा स्तर और SLA फीचर्सपाठ 11वर्गीकृत चरों का मानकीकरण और सफाई: उत्पाद_श्रेणी, देश, मार्केटिंग_चैनल, डिवाइस_प्रकारउत्पाद श्रेणी, देश, मार्केटिंग चैनल, और डिवाइस प्रकार जैसे वर्गीकृत चरों को मानकीकृत और साफ करें लेबल सामान्यीकरण, दुर्लभ स्तरों को मर्ज करके, और डेटासेट्स में सुसंगत टैक्सोनॉमी लागू करके।
असंगत श्रेणी लेबलों का पता लगानास्ट्रिंग सामान्यीकरण और मैपिंगदुर्लभ और शोरयुक्त श्रेणियों को मर्ज करनाश्रेणी टैक्सोनॉमी बनाए रखनावर्गीकृत सफाई का दस्तावेजीकरण