មេរៀនរងទី 1ការក្នុងកូដប្រភេទ៖ one-hot, target/mean encoding សម្រាប់ product_category និង region, និងការគ្រប់គ្រងប្រភេទកម្ររៀនវិធីសាស្ត្រជាក់ស្តែងដើម្បីក្នុងកូដប្រភេទសម្រាប់មូលដ្ឋានព្យាករណ៍។ យើងគ្របដណ្តប់ one-hot និង target encoding សម្រាប់ផលិតផល និងតំបន់ ការគ្រប់គ្រងកម្រិតកម្រ និងជៀសវាងការលេចធ្លាយនៅពេលប្រើក្នុងកូដផ្អែកលើគោលដៅ។
ការក្នុងកូដ one-hot សម្រាប់ប្រភេទស្ថិរភាពTarget និង mean encoding សម្រាប់ high-cardinalityFrequency encoding សម្រាប់ប្រភេទ sparseការក្រុម និង pooling កម្រិតប្រភេទកម្រនីតិវិធី target encoding សុវត្ថិភាពពីការលេចធ្លាយមេរៀនរងទី 2ការបំបែកទិន្នន័យសម្រាប់ time-series៖ យុទ្ធសាស្ត្របំបែក train/validation/test ផ្អែកលើពេលវេលា បង្វិលជុំ និង blocked cross-validation សម្រាប់ការពឹងផ្អែកពេលវេលាគ្រប់គ្រងការបំបែកទិន្នន័យដែលយល់ដឹងពីពេលវេលាសម្រាប់ការវាយតម្លៃព្យាករណ៍។ អ្នកនឹងរចនាបំបែក train, validation, និង test ដែលគោរពលំដាប់ពេលវេលា ប្រើបង្វិលជុំ និងអនុវត្ត blocked cross-validation ដើម្បីធ្វើត្រាប់តាមស្ថានភាពដាក់ឱ្យប្រើប្រាស់ពិតប្រាកដ។
ការបំបែក holdout ដែលគោរពលំដាប់ពេលវេលាការវាយតម្លៃបង្វិលជុំ និងពង្រីកជុំវិញBlocked cross-validation សម្រាប់ time seriesការផ្គូផ្គងកាលបរិច្ឆេទបំបែកជាមួយវដ្តធុរកិច្ចជៀសវាង lookahead bias ក្នុងការរចនាបំបែកមេរៀនរងទី 3លក្ខណៈសម្បត្តិទីផ្សារ និងហេតុផល៖ បង្កើត lagged marketing_spend, ពាក្យសម្តីអន្តរកម្ម (marketing_spend × discount_rate), channel attribution proxies ពី website_visitsរៀនរបៀបផ្លាស់ប្តូរទិន្នន័យទីផ្សារ និងវេបជាលក្ខណៈសម្បត្តិព្យាករណ៍។ យើងគ្របដណ្តប់ lagged marketing variables, ពាក្យសម្តីអន្តរកម្មជាមួយជំនួយ និង channel attribution proxies ដែលចាប់យកផលប៉ះពាល់ទីផ្សារលើទីផ្សារប្រចាំខែបានល្អជាង។
Lagged marketing_spend តាម channel និង campaignលក្ខណៈសម្បត្តិអន្តរកម្ម marketing_spend × discount_rateWebsite_visits ជាគោលអ្នក channel attribution proxyការផ្គូផ្គងលក្ខណៈសម្បត្តិទីផ្សារទៅទីផ្សារប្រចាំខែជៀសវាងការលេចធ្លាយទិន្នន័យក្នុងលក្ខណៈសម្បត្តិហេតុផលមេរៀនរងទី 4សញ្ញាសម្គាល់រដូវកាល និងថ្ងៃឈប់សម្រាក៖ បង្កើត month-of-year, quarter, សញ្ញាសម្គាល់ថ្ងៃឈប់សម្រាកសំខាន់របស់សហរដ្ឋអាមេរិក, ព្រឹត្តិការណ៍ទិញ (Black Friday, Cyber Monday) និង promo windowsចាប់យកលំនាំត្រឡប់មកវិញជាមួយសញ្ញាសម្គាល់រដូវកាល និងថ្ងៃឈប់សម្រាក។ អ្នកនឹងបង្កើត month និង quarter dummies, សញ្ញាសម្គាល់ថ្ងៃឈប់សម្រាកសំខាន់របស់សហរដ្ឋអាមេរិក សញ្ញាសម្គាល់ព្រឹត្តិការណ៍ទិញ និងសញ្ញាសម្គាល់ promo window ដែលស័ក្តិសមសម្រាប់ការព្យាករណ៍ទីផ្សារ។
លក្ខណៈសម្បត្តិ dummy month-of-year និង quarterសញ្ញាសម្គាល់ថ្ងៃឈប់សម្រាកសហព័ន្ធ និងទីផ្សាររបស់សហរដ្ឋអាមេរិកសញ្ញាសម្គាល់ Black Friday និង Cyber Mondayសញ្ញាសម្គាល់ចាប់ផ្តើម និងបញ្ចប់ promo windowផលប៉ះពាល់ថ្ងៃឈប់សម្រាក និង promo ត្រួតគ្នាមេរៀនរងទី 5ការរកឃើញ និងការព្យាបាលតម្លៃខុសធម្មតា៖ ច្បាប់ស្ថិតិ (IQR, z-scores), តម្រងច្បាប់ធុរកិច្ច, winsorizing vs trimming, និងពេលណាទុកតម្លៃខុសធម្មតាយល់ដឹងពីរបៀបរកឃើញ និងព្យាបាលតម្លៃខុសធម្មតានៅក្នុងទិន្នន័យទីផ្សារ និងទីផ្សារ។ អ្នកនឹងអនុវត្តច្បាប់ស្ថិតិ តម្រងធុរកិច្ច និងប្រៀបធៀប winsorizing ជាមួយ trimming ខណៈពេលដែលរៀនពេលណាទុកតម្លៃខ្លាំងគឺត្រឹមត្រូវតាមការវិភាគ។
ការពិនិត្យមើលជាមួយ boxplots និង time plotsច្បាប់ outlier ផ្អែកលើ IQR និង z-scoreតម្រងច្បាប់ធុរកិច្ចសម្រាប់តម្លៃមិនសមហេតុផលWinsorizing ជាមួយ trimming ចំណុចខ្លាំងការសម្រេចចិត្តពេលទុក outlier ដែលមានឥទ្ធិពលមេរៀនរងទី 6ការបកស្រាយវាលនីមួយៗ៖ month, product_category, region, units_sold, revenue, marketing_spend, website_visits, discount_rate និងអត្ថន័យធុរកិច្ចដែលបានប្រកាសអភិវឌ្ឍការយល់ដឹងជ្រៅជ្រះលើវាលនីមួយៗនៅក្នុងឯកសារទិន្នន័យទីផ្សារ។ អ្នកនឹងបកស្រាយ month, ផលិតផល, តំបន់ និងសូចនាករពាណិជ្ជកម្ម ភ្ជាប់ជាមួយដំណើរការធុរកិច្ច និងរបៀបដែលពួកវាមានឥទ្ធិពលលើគោលដៅព្យាករណ៍។
តួនាទី month ប្រតិទិន និងផ្តោតព្យាករណ៍ឋានានុក្រម product_category និងការជ្រើសរើសនិយមន័យតំបន់ និងរចនាសម្ព័ន្ធទីផ្សារទំនាក់ទំនង units_sold, revenue, និងតម្លៃMarketing_spend, visits, និង discount_rateមេរៀនរងទី 7ការផ្ទៀងផ្ទាត់ time index និងការផ្គូផ្គងប្រតិទិន៖ ការគ្រប់គ្រងព្រំដែនខែ ប្រតិទិនលក់រាយ vs ខែប្រតិទិន ឆ្នាំអឌ្ឍចន្ធសីតា និងផលប៉ះពាល់ DSTរៀនការផ្ទៀងផ្ទាត់ time index និងផ្គូផ្គងទិន្នន័យទៅប្រតិទិនដដែល។ យើងដោះស្រាយព្រំដែនខែ ប្រតិទិនលក់រាយជាមួយប្រតិទិនធម្មតា ឆ្នាំអឌ្ឍចន្ធសីតា និងផលប៉ះពាល់ daylight saving ដែលអាចរារាំងលក្ខណៈសម្បត្តិ និងការសង្ខេបផ្អែកលើពេលវេលា។
ការពិនិត្យចន្លោះ និងស្ទួនក្នុង time indexការផ្គូផ្គងទៅខែលក់រាយ vs ប្រតិទិនការគ្រប់គ្រងឆ្នាំអឌ្ឍចន្ធសីតានៅក្នុងការសង្ខេបប្រចាំខែការគ្រប់គ្រងពេល daylight saving នៅក្នុង timestampsការជួសជុល time zones និង feeds មិនត្រូវគ្នាមេរៀនរងទី 8ការបង្កើតលក្ខណៈសម្បត្តិ៖ បង្កើត lag features, rolling means/medians, rate-of-change, អត្រាកើតឡើង និងសូចនាករស្មុគស្មាញ cumulatedអភិវឌ្ឍលក្ខណៈសម្បត្តិខ្លាំងពីទិន្នន័យទីផ្សារ និងទីផ្សារលំដាប់។ អ្នកនឹងបង្កើត lags, ស្ថិតិបង្វិលជុំ អត្រាកើតឡើង និងសូចនាករស្មុគស្មាញដែលចាប់យក momentum, ស្ថេរភាព និងលំនាំរចនាសម្ព័ន្ធនៅក្នុងឥរិយាបទទីផ្សារប្រចាំខែ។
Lag features សម្រាប់សញ្ញាទីផ្សារ និងទីផ្សារRolling means, medians, និង rolling sumsការកើតឡើងខែលើខែ និងឆ្នាំលើឆ្នាំសូចនាករស្មុគស្មាញ revenue និង units_soldការពិនិត្យស្ថេរភាពសម្រាប់លក្ខណៈសម្បត្តិបានបង្កើតមេរៀនរងទី 9ការពិនិត្យគុណភាពទិន្នន័យ៖ មិធីសាស្ត្ររកឃើញ និងបង្ហាញការខ្វះខាត ប្រភេទទិន្នន័យខ្វះ និងការរាយការណ៍លំនាំខ្វះតាមប្រភេទ/តំបន់ធានាគុណភាពទិន្នន័យដោយបង្ហាញការខ្វះខាត និងភាពមិនស៊ីសង្វាក់។ អ្នកនឹងចាត់ថ្នាក់យន្តការទិន្នន័យខ្វះ រកឃើញលំនាំតាមផលិតផល និងតំបន់ និងរចនារាយការណ៍ដែលណែនាំការបំពេញ និងការជួសជុលទិន្នន័យខាងលើ។
ការពិនិត្យ completeness និង validity កម្រិតវាលប្រភេទ MCAR, MAR, និង MNAR ខ្វះខាតHeatmaps ខ្វះខាតតាមពេលវេលា និងតំបន់ខ្វះខាតតាម product_category និង channelការឯកសារបញ្ហាគុណភាពទិន្នន័យសម្រាប់ម្ចាស់មេរៀនរងទី 10ការសង្ខេប និង granularities៖ ការសង្ខេបទៅ category × month, region × month, និង multi-index pivoting; ការពិចារណាការកាត់បន្ថយ និងកើនឡើងរៀនរបៀបសង្ខេប និងផ្លាស់ប្តូរទម្រង់ទិន្នន័យឆ្លងកាត់ពេលវេលា និងវិមាត្រ។ យើងគ្របដណ្តប់ទិដ្ឋភាព category × month និង region × month, multi-index pivoting, និងពេលណាកាត់បន្ថយ ឬកើនឡើងសម្រាប់បញ្ចូលមូលដ្ឋានដដែល។
ការជ្រើស granularity មូលដ្ឋានសម្រាប់ការធ្វើមូលដ្ឋានតារាង category × month និង region × monthMulti-index pivoting និង unpivotingការកាត់បន្ថយទិន្នន័យប្រចាំថ្ងៃទៅកម្រិតប្រចាំខែការកើនឡើង series ខ្វះខាតជាមួយច្បាប់ប្រុងប្រយ័ត្ន