পাঠ 1সিন্থেটিক এবং উপলব্ধতা চেক: আপটাইম, ক্রনজব স্বাস্থ্য, ব্যাকআপ সম্পন্নতা অ্যালার্টআপটাইম, নির্ধারিত জব যাচাই এবং ব্যাকআপ সম্পন্নতার জন্য সিন্থেটিক চেক বাস্তবায়ন করার পদ্ধতি জানুন, যাতে ইউজার ফ্লো অনুকরণকারী প্রোব ডিজাইন করা হয়, ডিপেন্ডেন্সি যাচাই করা হয় এবং প্রকৃত ইউজার প্রভাবিত হওয়ার আগে প্রাথমিক সতর্কতা দেওয়া হয়।
HTTP আপটাইম এবং উপলব্ধতা প্রোবমাল্টি-স্টেপ সিন্থেটিক ইউজার জার্নিক্রনজব এবং শিডিউলার স্বাস্থ্য চেকব্যাকআপ সাফল্য এবং RPO যাচাইপ্রোবের অবস্থান এবং ফ্রিকোয়েন্সিপাঠ 2থ্রেশহোল্ড এবং অ্যালার্ট নিয়ম নির্ধারণ: স্ট্যাটিক থ্রেশহোল্ড, রেট-ভিত্তিক অ্যালার্ট, অ্যানোমালি ডিটেকশন, সাপ্রেশন উইন্ডোস্ট্যাটিক লিমিট, রেট-ভিত্তিক শর্ত, অ্যানোমালি ডিটেকশন এবং সাপ্রেশন উইন্ডো ব্যবহার করে অ্যালার্ট থ্রেশহোল্ড এবং নিয়ম নির্ধারণ করার পদ্ধতি শিখুন, সংবেদনশীলতা এবং নয়েজের মধ্যে ভারসাম্য রক্ষা করতে হবে এবং পরিবর্তনশীল ওয়ার্কলোড ও মৌসুমী প্যাটার্নের সাথে খাপ খাইয়ে নিতে হবে।
স্ট্যাটিক থ্রেশহোল্ড এবং বেসলাইনরেট-অফ-চেঞ্জ এবং ডেরিভেটিভ অ্যালার্টঅ্যানোমালি এবং আউটলায়ার ডিটেকশনমেইনটেন্যান্স এবং সাইলেন্স উইন্ডোনয়েজ কমানোর জন্য নিয়ম টিউনিংপাঠ 3হাইপারভাইজর হোস্ট এবং ক্লাউড ইনস্ট্যান্স স্বাস্থ্য ও বিলিং অ্যালার্টের জন্য ইনফ্রাস্ট্রাকচার মনিটরিংহাইপারভাইজর, ভার্চুয়াল মেশিন এবং ক্লাউড ইনস্ট্যান্স মনিটর করার পদ্ধতি শিখুন, যার মধ্যে হোস্ট রিসোর্স স্বাস্থ্য, স্টোরেজ এবং নেটওয়ার্ক পারফরম্যান্স, ম্যানেজড সার্ভিস এবং বিলিং বা বাজেট অ্যালার্ট অন্তর্ভুক্ত রয়েছে যাতে আউটেজ এবং অপ্রত্যাশিত ক্লাউড খরচ প্রতিরোধ করা যায়।
হাইপারভাইজর হোস্ট স্বাস্থ্য চেকVM এবং কন্টেইনার রিসোর্স ব্যবহারক্লাউড প্রোভাইডার স্বাস্থ্য মেট্রিক্সবিলিং, বাজেট এবং কোটা অ্যালার্টম্যানেজড ক্লাউড সার্ভিস মনিটরিংপাঠ 4লগ অ্যাগ্রিগেশন কৌশল: সেন্ট্রাল syslog, Windows Event Forwarding, লগ ফরম্যাট, পার্সিং বিবেচনাsyslog, Windows Event Forwarding এবং এজেন্ট ব্যবহার করে লগ সেন্ট্রালাইজ এবং নরমালাইজ করার পদ্ধতি বুঝুন, লগ ফরম্যাট ডিজাইন করুন, পার্সিং এবং এনরিচমেন্ট হ্যান্ডেল করুন এবং ট্রাবলশুটিং এবং অডিটের জন্য রিটেনশন, ইনডেক্সিং এবং অ্যাক্সেস কন্ট্রোল পরিকল্পনা করুন।
সেন্ট্রাল syslog এবং রিলে ডিজাইনWindows Event Forwarding বেসিক্সস্ট্রাকচার্ড লগ ফরম্যাট এবং ফিল্ডপার্সিং, grok এবং JSON পাইপলাইনরিটেনশন, ইনডেক্সিং এবং আর্কাইভিংঅ্যাক্সেস কন্ট্রোল এবং প্রাইভেসি উদ্বেগপাঠ 5অ্যালার্টিং প্ল্যাটফর্ম এবং রাউটিং: Alertmanager, PagerDuty, OpsGenie, ইমেইল এবং Slack ইন্টিগ্রেশনঅ্যালার্টিং প্ল্যাটফর্ম কীভাবে ইভেন্ট গ্রহণ করে, অ্যালার্ট ডিডুপ্লিকেট এবং রাউট করে এবং Alertmanager, PagerDuty এবং OpsGenie-এর মতো ইমেইল, চ্যাট এবং পেজিং টুলের সাথে ইন্টিগ্রেট করে তার অধ্যয়ন করুন, যাতে সঠিক লোকদের দ্রুত এবং নির্ভরযোগ্যভাবে জানানো যায়।
Alertmanager রাউটিং ট্রিPagerDuty এবং OpsGenie বেসিক্সইমেইল এবং Slack নোটিফিকেশন ডিজাইনঅ্যালার্ট গ্রুপিং এবং ডিডুপ্লিকেশনমাল্টি-চ্যানেল ডেলিভারি এবং ফলব্যাকপাঠ 6মনিটর করার মূল মেট্রিক্স: CPU, মেমরি, ডিস্ক, I/O, নেটওয়ার্ক, সোয়াপ, লোড অ্যাভারেজ, inode ব্যবহারকোন হোস্ট মেট্রিক্স সবচেয়ে গুরুত্বপূর্ণ তা শিখুন, CPU, মেমরি, ডিস্ক, I/O, নেটওয়ার্ক, সোয়াপ, লোড এবং inode ইন্ডিকেটর ব্যাখ্যা করুন এবং পারফরম্যান্স সমস্যা আগে ধরতে সেন্সেবল কালেকশন ইন্টারভাল এবং বেসলাইন সেট করুন।
CPU ইউটিলাইজেশন এবং স্যাচুরেশনমেমরি প্রেশার এবং সোয়াপিংডিস্ক ক্যাপাসিটি এবং I/O লেটেন্সিনেটওয়ার্ক থ্রুপুট এবং এররলোড অ্যাভারেজ এবং রান কিউInode ক্ষয়ের ঝুঁকিপাঠ 7এসকেলেশন পলিসি, রানবুক, অ্যালার্ট ডিডুপ্লিকেশন এবং অন-কল শিডিউলিং সেরা অভ্যাসএসকেলেশন পলিসি ডিজাইন, অ্যাকশনেবল রানবুক তৈরি, অ্যালার্ট ডিডুপ্লিকেশন কনফিগার এবং অন-কল রোটেশন ম্যানেজ করার পদ্ধতি পরীক্ষা করুন যাতে ঘটনা দক্ষতার সাথে হ্যান্ডেল হয় এবং অ্যালার্ট ফ্যাটিগ এবং টিমের কল্যাণ রক্ষা করা যায়।
এসকেলেশন পাথ এবং টিয়ার নির্ধারণস্পষ্ট, অ্যাকশনেবল রানবুক লেখাঅ্যালার্ট ডিডুপ্লিকেশন এবং নয়েজ কন্ট্রোলঅন-কল রোটেশন এবং হ্যান্ডঅফ নিয়মপোস্ট-ইনসিডেন্ট রিভিউ এবং শিক্ষাপাঠ 8মনিটরিং টুল: Prometheus + node_exporter, Grafana, Zabbix, Nagios, Datadog – নির্বাচন যুক্তি এবং ট্রেডঅফPrometheus, Grafana, Zabbix, Nagios এবং Datadog-এর মতো প্রধান মনিটরিং স্ট্যাক তুলনা করুন, এক্সপোর্টার, এজেন্ট, স্কেলেবিলিটি, খরচ, ইকোসিস্টেম বুঝুন এবং আপনার সংস্থার দক্ষতা এবং সীমাবদ্ধতার সাথে মানানসই টুল বেছে নিন।
Prometheus এবং node_exporter ব্যবহারGrafana ড্যাশবোর্ড এবং অ্যালার্টিংZabbix এবং Nagios শক্তি এবং সীমাDatadog ফিচার এবং প্রাইসিং প্রভাবটুল মূল্যায়ন এবং পছন্দের মানদণ্ডপাঠ 9অ্যাপ্লিকেশন-লেভেল মনিটরিং: রেসপন্স টাইম, এরর রেট, HTTP স্ট্যাটাস কোড, কাস্টম অ্যাপ্লিকেশন মেট্রিক্সঅ্যাপ্লিকেশন আচরণ মনিটর করার কৌশল অন্বেষণ করুন, যার মধ্যে লেটেন্সি, এরর রেট, HTTP স্ট্যাটাস কোড এবং কাস্টম মেট্রিক্স অন্তর্ভুক্ত, কোড ইন্সট্রুমেন্ট করুন, SLI নির্ধারণ করুন এবং অ্যাপ মেট্রিক্সকে ইনফ্রাস্ট্রাকচার ডেটার সাথে কোরিলেট করুন।
রিকোয়েস্ট লেটেন্সি এবং পার্সেন্টাইলএরর রেট এবং ফেলিয়র প্যাটার্নHTTP স্ট্যাটাস কোড ক্লাস ট্র্যাকিংকাস্টম বিজনেস এবং ডোমেইন মেট্রিক্সইন্সট্রুমেন্টেশন লাইব্রেরি এবং SDKপাঠ 10সার্ভিস-লেভেল মনিটরিং: প্রসেস/সার্ভিস চেক, HTTP(S) এন্ডপয়েন্ট, ডেটাবেস স্বাস্থ্য, AD/Kerberos লেটেন্সিপ্রসেস চেক, HTTP(S) প্রোব, ডেটাবেস স্বাস্থ্য টেস্ট এবং AD এবং Kerberos-এর মতো আইডেন্টিটি সার্ভিসের মাধ্যমে সার্ভিস উপলব্ধতা মনিটর করুন, এই চেকগুলোকে ইউজার-ফেসিং নির্ভরযোগ্যতা এবং SLA-এর সাথে কোরিলেট করুন।
প্রসেস এবং সার্ভিস সুপারভিশনHTTP(S) এন্ডপয়েন্ট প্রোবিংডেটাবেস কানেক্টিভিটি এবং লেটেন্সিAD এবং Kerberos স্বাস্থ্য চেকচেকগুলোকে SLA এবং SLO-এর সাথে ম্যাপিং