3 de março de 2026 · 4 min · Carol

uptime monitoramento SRE

Uptime alto não é o mesmo que disponibilidade

Seu monitoring pode reportar 99.99% e seu cliente estar furioso. A diferença está em o que você monitora, com que frequência, e o que considera "no ar".

"O site está no ar 99.99% do tempo" — quem nunca viu essa frase num pitch comercial? O número é bonito, dá conforto, vira badge no rodapé. Mas ele esconde mais do que mostra.

Uptime é uma medida, não uma garantia. E como toda medida, depende de como você define os limites.

O que "no ar" significa pro seu monitor

A maioria das ferramentas de monitoramento checa uma única coisa: um GET na home page. Se respondeu 200 OK dentro do timeout, está "up". Se não respondeu, está "down".

Isso pega:

✅ Servidor totalmente fora
✅ DNS quebrado
✅ Certificado SSL expirado
✅ Timeout completo

Mas não pega:

❌ Página inicial OK, checkout quebrado
❌ 200 OK retornando HTML de erro genérico ("Service Unavailable")
❌ Tempo de resposta degradado (lento mas no ar)
❌ API funcional, painel admin caído
❌ Cert SSL vence em 5 dias (ainda válido = "up")

Resultado: você fecha o mês com 99.99% no painel e fila de tickets reclamando.

Os três níveis de monitoramento

1. Disponibilidade básica (HTTP)

GET / e olhar status code. É o mínimo. Detecta a maioria dos problemas catastróficos mas perde os silenciosos.

Use pra: site institucional simples, landing page.

2. Keyword check

GET / e procurar uma palavra-chave no body. Se a palavra "Bem-vindo" sumiu, alguma coisa está errada — mesmo que o status seja 200.

Use pra: detectar página de erro genérica que serve 200, defacement, banner não programado.

3. Multi-endpoint

Monitora separadamente: home, login, API de pagamento, dashboard admin, webhook. Cada um tem alerta próprio. Status page mostra granularmente.

Use pra: SaaS, e-commerce, qualquer coisa onde diferentes partes podem falhar independentemente.

Frequência: 1 minuto vs 5 minutos

UptimeRobot grátis checa a cada 5 minutos. Sentinela e a maioria dos planos pagos checam a cada 1 minuto. Diferença na prática:

Falha às 14:03:30, intervalo 5 min → detectada às 14:05 → alerta em ~14:06
Falha às 14:03:30, intervalo 1 min → detectada às 14:04 → alerta em ~14:05

Parece pouco. Mas se você opera um e-commerce em horário de pico, 1 minuto de downtime não detectado é alguns pedidos perdidos. Multiplica por mês, vira diferença real.

A trade-off é custo: 1/min = 5x mais checks = mais carga no seu servidor (pequena) e mais carga no monitorador (paga isso no plano).

"Estamos no ar mas estamos lentos"

Latência degradada é o assassino silencioso. Site responde em 200 OK, mas levou 8 segundos. Usuário desistiu antes da resposta chegar. Pro monitor, ficou tudo OK.

Como pegar: monitore não só o status, mas o tempo de resposta. Métricas que importam:

p50 (mediana): metade dos requests é mais rápido que isso
p95: 95% dos requests é mais rápido que isso — o pior 5%
p99: o pior 1%

Médio engana. Se p50 = 100ms mas p99 = 8s, sua experiência de usuário está com um problema sério mascarado pela média.

Janelas de manutenção: honest reporting

99.99% é honesto se você conta direito. Se você derruba a API toda quarta às 3h pra manutenção, isso conta como downtime — a menos que você tenha declarado a janela com antecedência.

Bom monitoring permite:

Criar janela de manutenção programada
Suprimir alertas durante a janela
Não contar o tempo da janela contra o uptime%
Mostrar banner "manutenção programada" na status page

Sem isso, ou você mente nos números ou paga em alarme falso.

A pergunta certa não é "qual meu uptime"

É: "quando alguma coisa quebrou nos últimos 90 dias, eu soube antes do cliente?"

Métrica honesta:

Quantos incidentes abriram
Tempo médio pra detecção (de quebra → primeiro alerta)
Tempo médio pra resolução (de detecção → resolvido)
Em quantos casos cliente avisou antes do monitor

Esse último é o teste real. Se você teve 3 incidentes esse mês e em 2 deles foi o cliente que reclamou primeiro, seu monitoring não tá fazendo o trabalho — independente do número agregado.

Conclusão prática

Antes de comemorar 99.9%:

Monitore mais que a home — adicione checkpoints pros fluxos críticos (checkout, login, API principal)
Use keyword check quando a aplicação serve 200 em modo degradado
Olhe p95 e p99 — não só status — pra pegar degradação
Declare janelas de manutenção pra ter uptime honesto
Acompanhe MTTD (tempo de detecção) — não só uptime

Uptime é um número fácil de divulgar. Disponibilidade real é mais difícil de medir — e mais importante de entregar.

Continue lendo

22/05/2026

Como calculamos o risco em R$/ano (ALE) — fórmula, tabela e exemplo

19/05/2026

ASM (Attack Surface Management): por que olhar seu site como um atacante