Aula 1Dados de monitoramento sintético e usuário real (RUM): scripts de checagem, tempos de load do clienteApresenta dados de monitoramento sintético e de usuário real, explicando scripts de checagem, tempos de carregamento no cliente e como comparar experiência simulada e real para detectar problemas antes dos usuários.
Conceitos de monitoria sintética e RUMCriação de scripts de checagemMedição de tempo de load no clienteComparação entre dados sintéticos e reaisUso de RUM para priorizar correçõesAula 2Métricas de infraestrutura: CPU, memória, uso de disco, I/O, latência de redeDetalha métricas de infraestrutura como CPU, memória, disco, I/O e latência de rede, ensinando a interpretar gráficos, definir limites saudáveis, detectar gargalos e relacionar esses dados com problemas de aplicação.
Uso de CPU e saturação de processadorConsumo e pressão de memóriaUtilização e saúde de disco e I/OLatência e perda em redeAlertas de capacidade e planejamentoAula 3Eventos de deploy e mudanças: histórico de releases, migrations, mudanças de configuraçãoMostra como registrar eventos de deploy, releases, migrations e mudanças de configuração, mantendo trilha de auditoria que permita correlacionar alterações com falhas, quedas de desempenho e comportamentos inesperados em produção.
Registro padronizado de releasesControle de versões e changelogRastreamento de migrations de bancoHistórico de mudanças de configuraçãoCorrelação de deploys com incidentesAula 4Mapeamento de dependências e integrações externas: serviços terceiros e SLAs delesAborda o mapeamento de dependências internas e integrações com serviços de terceiros, incluindo SLAs, pontos de falha e contratos, para entender riscos, priorizar monitoria e agir rapidamente em indisponibilidades externas.
Inventário de serviços internos e externosMapeamento de fluxos entre sistemasRegistro de SLAs de provedoresPontos únicos de falha em integraçõesMonitoria dedicada para terceiros críticosAula 5Métricas de aplicação: tempo de resposta por endpoint, percentis (p50/p95/p99), taxa de errosAborda como medir tempo de resposta por endpoint, interpretar percentis p50, p95 e p99, acompanhar taxa de erros e transformar essas métricas em insumos práticos para diagnóstico, priorização de correções e melhoria contínua.
Definição de SLIs e SLOs por endpointColeta de latência e tempo de respostaLeitura e uso de percentis p50, p95 e p99Cálculo e monitoramento da taxa de errosDashboards para saúde da aplicaçãoAula 6Metadados de infraestrutura: topologia, escalonamento automático, limites de recursosDetalha como mapear e registrar metadados de infraestrutura, incluindo topologia, regras de escalonamento automático e limites de recursos, garantindo visão clara do ambiente para correlação com incidentes e planejamento de capacidade.
Documentação da topologia de serviçosMapeamento de clusters e nósRegras de escalonamento automáticoLimites de CPU, memória e discoCorrelação de metadados com incidentesAula 7Logs estruturados: application logs, web server logs, API gateway logs, stack tracesFoca em logs estruturados de aplicação, web server e API gateway, além de stack traces, mostrando como padronizar campos, enriquecer contexto e usar esses dados para investigação rápida e correlação com métricas.
Padrões de campos em logs estruturadosColeta de logs de aplicaçãoColeta de logs de web server e gatewayUso de correlação e trace IDsAnálise de stack traces em incidentesAula 8Métricas de tráfego e carga: requisições por segundo, sessões ativas, origem geográfica, padrões horáriosExplora métricas de tráfego e carga, como requisições por segundo, sessões ativas, origem geográfica e padrões horários, permitindo prever picos, ajustar capacidade e entender o comportamento de uso do sistema.
Requisições por segundo e throughputMonitoramento de sessões ativasAnálise de origem geográfica de acessosIdentificação de padrões horários de usoDetecção de picos e sazonalidadesAula 9Alertas e histórico de incidentes: tickets do atendimento, tempos de abertura/fechamento, classificaçõesExplica como organizar alertas e histórico de incidentes, incluindo tickets, tempos de abertura e fechamento e classificações, permitindo análises de recorrência, SLA, efetividade de resposta e melhoria de processos de suporte.
Padronização de abertura de ticketsClassificação de impacto e urgênciaMedição de tempos de resposta e soluçãoAnálise de recorrência de incidentesRelatórios de SLA e qualidade do suporteAula 10Métricas de banco de dados: tempo de queries, locks, filas, conexões ativas, uso de índicesExplora métricas essenciais de banco de dados, como tempo de queries, locks, filas, conexões ativas e uso de índices, mostrando como identificar gargalos, priorizar otimizações e apoiar o time de desenvolvimento nas correções.
Tempo de execução de queries críticasIdentificação e análise de locksMonitoramento de filas e waitsGestão de conexões ativas e poolsAcompanhamento do uso de índices