Devido a um erro no serviço de coleta de logs, o Cloudflare perde 55% de logs em uma falha que aconteceu no dia 14 de novembro.
Cloudflare Perdeu 55% dos Logs Enviados a Clientes
Recentemente, a Cloudflare anunciou a perda de 55% dos logs enviados aos seus clientes durante 3,5 horas devido a um erro no serviço de coleta de logs. Este incidente ocorreu em 14 de novembro de 2024 e impactou significativamente a maioria dos clientes que utilizam os Cloudflare Logs.
O Que São os Logs do Cloudflare?
Os logs são registros detalhados das atividades em um site. Com o Cloudflare, clientes podem monitorar o tráfego e filtrá-lo com base em critérios específicos.
Esses logs permitem analisar o tráfego para investigar incidentes de segurança, solucionar problemas, ataques DDoS, padrões de tráfego e otimizações no site.
Cloudflare oferece o serviço “logpush“, que coleta logs de diversos pontos de extremidade e os envia para serviços de armazenamento externo, como Amazon S3, Elastic, Microsoft Azure, Splunk e Google Cloud Storage.
Este processo gera uma quantidade massiva de dados, pois Cloudflare processa mais de 50 trilhões de logs de eventos diariamente, dos quais cerca de 4,5 trilhões são enviados aos clientes.
O Incidente e Suas Causas
No dia 14 de novembro, uma configuração errada no Logfwdr, um componente essencial da Cloudflare, causou a perda de logs. O Logfwdr é responsável por encaminhar logs de eventos da rede para sistemas downstream.
Uma atualização de configuração introduziu um erro que fez o sistema acreditar que não havia clientes cujos logs deveriam ser encaminhados, resultando no descarte dos logs.
Detalhes do Erro
Item | Descrição |
---|---|
Data do Incidente | 14 de novembro de 2024 |
Duração do Problema | 3,5 horas |
Percentual de Logs Perdidos | 55% |
Causa Principal | Misconfiguração no Logfwdr, resultando em uma configuração em branco. |
Componente Afetado | Buftee, um sistema de buffer distribuído que armazena logs temporariamente. |
O Logfwdr possui um mecanismo de failsafe que deveria encaminhar todos os logs em caso de configurações inválidas para evitar perdas. No entanto, esse sistema falhou, causando um aumento massivo no volume de logs processados, sobrecarregando o Buftee.
Consequências do Incidente
O Buftee, projetado para armazenar logs temporariamente quando os sistemas downstream não conseguem processá-los em tempo real, teve que lidar com um volume 40 vezes maior do que sua capacidade.
Apesar de salvaguardas, como limites de recursos e controle de fluxo, essas medidas falharam devido à configuração inadequada e à falta de testes prévios.
Cerca de cinco minutos após a configuração errada no Logfwdr, o Buftee parou de funcionar e precisou de um reinício completo, atrasando ainda mais a recuperação e resultando na perda de mais logs.
Medidas Adotadas pela Cloudflare
Após o incidente, a Cloudflare implementou várias medidas para prevenir ocorrências futuras, incluindo:
- Sistema de Detecção e Alerta de Misconfiguração: Um sistema dedicado foi introduzido para notificar as equipes imediatamente quando anomalias nas configurações de encaminhamento de logs forem detectadas.
- Configuração Correta do Buftee: O Buftee agora está configurado para evitar que picos nos volumes de logs causem falhas no sistema.
- Testes de Sobrecarga: A Cloudflare planeja realizar testes regulares simulando aumentos inesperados nos volumes de dados, garantindo que os mecanismos de failsafe sejam robustos o suficiente para lidar com esses eventos.
Implicações para os Clientes
A perda de logs pode impactar significativamente os clientes que dependem desses dados para monitorar a segurança e o desempenho de seus sites.
A análise de logs é crucial para entender o que acontece em um site e responder a incidentes de segurança. Portanto, é essencial que a Cloudflare tome medidas rigorosas para evitar que isso aconteça novamente.
Situação Atual e Futuras Considerações
A Cloudflare continua a trabalhar para melhorar seus serviços e a confiabilidade de suas soluções. À medida que a tecnologia avança e as ameaças cibernéticas se tornam mais sofisticadas, a necessidade de sistemas robustos e confiáveis se torna crítica.
Os clientes devem estar cientes das implicações de tais incidentes e considerar medidas adicionais para proteger seus dados e operações.