บทเรียนที่ 1หมวดหมู่ Log และ schemas ที่ต้องรวบรวม: access logs (request/response times), application logs (errors, warnings, stack traces), DB logs (slow queries, deadlocks), system logs (kernel, auth)เรียนรู้วิธีการจัดโครงสร้างและจัดหมวดหมู่ logs สำหรับ observability ใน Datadog สำรวจ access, application, database และ system logs และออกแบบ schemas และ attributes ที่รองรับการกรอง การเชื่อมโยง และการวิเคราะห์ระยะยาว
Access logs และ latency fieldsApplication logs และ stack tracesDatabase logs สำหรับ slow queriesSystem และ kernel event loggingLog normalization และ taggingบทเรียนที่ 2เมตริกแอปพลิเคชัน: requests per second, 50/95/99th latency, request queue length, active connections, thread/event loop lagเรียนรู้วิธีการติดตามเมตริกแอปพลิเคชันหลักใน Datadog รวมถึง throughput, latency และ saturation เข้าใจตัวชี้วัดที่เผยให้เห็น performance regressions, ความเสี่ยงความสามารถ และปัญหา event loop หรือ thread pool ใน workload จริง
Requests per second และ traffic patternsLatency SLOs และ tail latency analysisRequest queue length และ backlog alertsActive connections และ pool saturationThread และ event loop lag detectionบทเรียนที่ 3รายละเอียด Distributed tracing: root span, downstream spans, trace sampling, flame graphs และ service map relationshipsเข้าใจแนวคิด distributed tracing ใน Datadog ตั้งแต่ root spans ถึง downstream services เรียนรู้ว่า sampling, flame graphs และ service maps ช่วยให้คุณติดตามคำขอ end to end, ระบุ bottlenecks และแก้ไขปัญหา microservice ที่ซับซ้อน
Root spans, child spans และ span tagsTrace sampling strategies และ tradeoffsFlame graphs สำหรับ latency hotspotsService maps และ dependency analysisการเชื่อมโยง traces กับ logs และ metricsบทเรียนที่ 4Synthetic และ RUM metrics: synthetic checks, uptime monitors และ Real User Monitoring metrics สำหรับ frontend performanceสำรวจวิธีที่ synthetic tests และ Real User Monitoring เสริมเมตริก backend เรียนรู้การกำหนดค่า uptime checks, browser tests และ RUM dashboards เพื่อจับ frontend performance, user journeys และ real error experiences ใน Datadog
HTTP และ browser synthetic test setupUptime และ SLA/SLO availability trackingFrontend Web Vitals และ page load metricsRUM error tracking และ session replaysGeo, device และ network segmentationบทเรียนที่ 5เมตริกข้อผิดพลาดและความพร้อมใช้งาน: 4xx/5xx rates, error counts by endpoint, exception rates และ retry stormsเข้าใจวิธีการตรวจสอบเมตริกข้อผิดพลาดและความพร้อมใช้งานใน Datadog เรียนรู้การติดตาม 4xx และ 5xx rates, exception bursts, retries และ timeouts และวิธีสร้างการเตือนที่สะท้อนผลกระทบผู้ใช้แทนสัญญาณที่ noisy และมีค่าน้อย
4xx vs 5xx error rate breakdownsError counts by endpoint และ serviceException rate spikes และ patternsRetry storms และ cascading failuresAvailability SLOs และ burn rate alertsบทเรียนที่ 6เมตริกฐานข้อมูลที่ต้องตรวจสอบสำหรับ PostgreSQL: active connections, connection pool utilization, slow queries, locks, bloat, checkpoints, WAL activityเน้นเมตริก PostgreSQL ที่สำคัญสำหรับ performance และ stability เรียนรู้การตรวจสอบ connections, pooling, slow queries, locks, bloat, checkpoints และ WAL activity ใน Datadog เพื่อป้องกัน outages และปรับแต่งพฤติกรรมฐานข้อมูล
Active connections และ pool utilizationSlow query detection และ dashboardsLock contention และ blocked sessionsTable และ index bloat indicatorsCheckpoints, WAL volume และ lagบทเรียนที่ 7เมตริกโครงสร้างพื้นฐานที่ต้องรวบรวมและตีความ: CPU, memory, disk I/O, disk saturation, network throughput และ context switchesเรียนรู้ว่าเมตริกโฮสต์และคอนเทนเนอร์ตัวไหนที่ต้องรวบรวมใน Datadog และวิธีตีความ เข้าใจ CPU, memory, disk I/O, saturation, network throughput และ context switches เพื่อตรวจจับ noisy neighbors, resource exhaustion และ throttling
CPU utilization, steal และ throttlingMemory usage, cache และ swappingDisk I/O, latency และ saturationNetwork throughput และ packet errorsContext switches และ scheduler pressure