មេរៀនរងទី 1សញ្ញាបង្ហាញកំហុស និង saturation៖ អត្រា 4xx/5xx, ការបញ្ចេញថវិកាកំហុស (http_requests_total{code=~"5.."})សិក្សាពីរបៀបតាមដានកំហុស HTTP និង saturation ដោយប្រើ Prometheus។ អ្នកនឹងគូសផែនទីអត្រា 4xx និង 5xx, គណនាការបញ្ចេញថវិកាកំហុស, និងរចនាសញ្ញាព្រមានដែលបែងចែកបញ្ហាអតិថិជនពីការបរាជ័យម៉ាស៊ីនមេ និងរោគសញ្ញាលើសទម្ងន់។
Tracking 4xx vs 5xx error rate time seriesUsing http_requests_total with code labelCalculating error budget burn from SLOsDetecting saturation via queue and retry metricsAlerting on fast vs slow error budget burnមេរៀនរងទី 2ម៉េត្រិក PostgreSQL៖ ការតភ្ជាប់, សំណួរសកម្ម, ការប្តេភ្ជាប់/rollback ប្រតិបត្តិការ, ការពន្យារពេល replication (pg_stat_activity count, pg_stat_database_xact_commit, pg_stat_replication)ស្វែងយល់ពីម៉េត្រិក PostgreSQL សំខាន់ដែលបានបង្ហាញទៅ Prometheus។ អ្នកនឹងតាមដានការតភ្ជាប់ សំណួរសកម្ម ឥរិយាបទប្រតិបត្តិការ និងការពន្យារពេល replication ដើម្បីរកការលើសទម្ងន់ ការរាំងខ្ទប់ និងហានិភ័យ failover ក្នុង cluster មូលដ្ឋានទិន្នន័យផលិតផល។
Monitoring connection counts and limitsActive query tracking with pg_stat_activityTransaction commit and rollback metricsMeasuring replication lag and replay delayAlerting on blocked and long running queriesមេរៀនរងទី 3ម៉េត្រិកផ្នែកផ្ទុក និងថាស៖ ប្រតិបត្តិការ I/O ថាស, ការពន្យារពេលថាស, ការប្រើប្រាស់ filesystem (node_disk_io_time_seconds_total, node_disk_io_time_seconds)យល់ដឹងពីម៉េត្រិកផ្នែកផ្ទុក និងថាសដែលប៉ះពាល់ដល់ភាពអាចទុកចិត្ត។ អ្នកនឹងតាមដានប្រតិបត្តិការថាស I/O, ការពន្យារពេល និងការប្រើប្រាស់ filesystem ដើម្បីរក saturation, ឧបករណ៍ខូច, និងហានិភ័យធនធានលើ node សំខាន់។
Disk IOPS and throughput time seriesnode_disk_io_time_seconds interpretationRead and write latency percentilesFilesystem utilization and inode usageAlerting on disk saturation and failuresមេរៀនរងទី 4ម៉េត្រិកធនធានសម្រាប់ pod និង node៖ CPU, សត្វមេម៉ូរី, filesystem, និង ephemeral storage (container_cpu_usage_seconds_total, container_memory_usage_bytes, node_filesystem_avail_bytes)សិក្សាពីម៉េត្រិកធនធាន pod និង node ដែលសំខាន់បំផុត។ អ្នកនឹងតាមដានការប្រើប្រាស់ CPU, សត្វមេម៉ូរី, filesystem និងផ្នែកផ្ទុក ephemeral ដើម្បីរកការបន្ធូរបន្ថយ ការសម្លាប់ចេញពីសត្វមេម៉ូរី និងសម្ពាធថាសមុនពេលប៉ះពាល់ដល់អ្នកប្រើប្រាស់។
container_cpu_usage_seconds_total patternsMemory usage and working set metricsDetecting OOM kills and memory pressureFilesystem and ephemeral storage usageAlerting on CPU throttling and saturationមេរៀនរងទី 5ម៉េត្រិកការអនុវត្តមូលដ្ឋានទិន្នន័យ៖ histogram រយៈពេលសំណួរ, អត្រាប៉ះ cache, សោរ និងសំណួរទន្ទឹង (pg_stat_statements និង postgres_exporter metrics)ពិនិត្យម៉េត្រិកការអនុវត្តមូលដ្ឋានទិន្នន័យដែលត្រូវបាន export ទៅ Prometheus។ អ្នកនឹងប្រើ histogram រយៈពេលសំណួរ, អត្រាប៉ះ cache, និងម៉េត្រិកសោរ ដើម្បីរកសំណួរយឺត ចំណុច contention និងផែនការអនុវត្តមិនមានប្រសិទ្ធភាព។
Query duration histograms and bucketspg_stat_statements latency and frequencyCache hit ratio and buffer usage metricsLock wait time and blocked query countsAlerting on regressions in query performanceមេរៀនរងទី 6Kubernetes control-plane និងសុខភាព pod៖ ការកើតឡើងវិញ pod, ចំនួន crashloop, pod_ready, kube_pod_status_phaseសិក្សាពីម៉េត្រិកដែលបង្ហាញសុខភាព control-plane និង pod ក្នុង Kubernetes។ អ្នកនឹងតាមដានការកើតឡើងវិញ pod, ចំនួន crashloop, pod_ready និង kube_pod_status_phase ដើម្បីកំណត់ workloads មិនស្ថិតស្ថេរ និង node បរាជ័យយ៉ាងលឿន។
Tracking pod restarts and crashloop countsUsing kube_pod_status_phase for pod lifecycleReadiness and liveness probe failure metricsCorrelating pod health with node conditionsAlerting on unstable or frequently restarting podsមេរៀនរងទី 7ម៉េត្រិកសេវា HTTP៖ អត្រាស្នើសុំ, កូដស្ថានភាព, និង latency អតិថិជន (http_requests_total, http_request_duration_seconds_bucket, http_request_duration_seconds_sum/count)ផ្តោតលើម៉េត្រិកសេវា HTTP ដែលពិពណ៌នាចរាចរណ៍ និងផលប៉ះពាល់អ្នកប្រើ។ អ្នកនឹងតាមដានអត្រាស្នើសុំ កូដស្ថានភាព និងការចែកចាយ latency ដើម្បីសាង SLOs, រកព្រឹត្តិការណ៍ និងកែតម្រូវការអនុវត្តកម្មវិធី។
http_requests_total labels and dimensionsRequest rate and concurrency estimationLatency histograms and summary metricsSeparating client and server error codesBuilding SLOs from HTTP latency metricsមេរៀនរងទី 8បណ្តាញ និងបន្ទុក៖ អត្រាជោគជ័យស្នើសុំសេវា, ការពន្យារពេលបណ្តាញ, latency service_endpoint (service:request_latency_bucket)សិក្សាម៉េត្រិកបណ្តាញ និងបន្ទុកដែលពិពណ៌នាសុខភាពសេវា។ អ្នកនឹងតាមដានអត្រាជោគជ័យស្នើសុំសេវា ការពន្យារពេលបណ្តាញ និង histogram កម្រិត endpoint ដើម្បីរកការបរាជ័យផ្នែក អ្នកជិតខាងមានសំឡេងរំខាន និងសេវាលើសទម្ងន់។
Service level request success rate metricsMeasuring network and TLS handshake latencyUsing service:request_latency_bucket histogramsDetecting partial regional or zone outagesAlerting on tail latency and saturationមេរៀនរងទី 9kube-state-metrics specifics៖ deployments desired vs available replicas, daemonset/pod disruption budgets, PVC capacity និងការប្រើប្រាស់ស៊ុតចូល kube-state-metrics និងវត្ថុ Kubernetes កម្រិតខ្ពស់របស់វា។ អ្នកនឹងតាមដាន replicas ដែលចង់បានបើកទល់នឹង replicas មាន ថវិការំខាន pod, និងការទាមទារផ្នែកផ្ទុកដើម្បីធានាធនធាន ភាពធន់នឹងការបរាជ័យ និង rollout សុវត្ថិភាព។
Deployment desired vs available replicasDaemonSet and StatefulSet readiness metricsPodDisruptionBudget allowed disruptionsPVC capacity, usage, and bound statusAlerting on under replicated workloadsមេរៀនរងទី 10ម៉េត្រិក Scheduler និង Controller៖ kube_scheduler_schedule_attempts_total, kube_controller_manager_workqueue_depthយល់ដឹងពីម៉េត្រិក scheduler និង controller ដែលបង្ហាញឥរិយាបទគ្រប់គ្រង Kubernetes។ អ្នកនឹងប្រើ Prometheus ដើម្បីតាមដានការសាកល្បងកំណត់ សម្រាប់ queue depth និង reconcile loops ដើម្បីរកចំណុចខ្សោយ និងសម្ពាធគ្រប់គ្រង។
kube_scheduler_schedule_attempts_total usageInterpreting scheduling error and failure labelsWorkqueue depth and processing rate metricsDetecting controller backlogs and slow reconcilesAlerting on stuck or flapping controllers