Início Ciência e tecnologia Cloudflare divulga detalhes técnicos por trás da interrupção massiva que interrompe a...

Cloudflare divulga detalhes técnicos por trás da interrupção massiva que interrompe a Internet

12
0


A Cloudflare publicou um relatório abrangente detalhando as causas de uma grande falha de rede que interrompeu o tráfego global da Internet por várias horas, afetando milhões de usuários e vários serviços.

A interrupção, que começou às 11h20 UTC, resultou de um erro de configuração interno e não de qualquer ameaça cibernética, ressaltando as vulnerabilidades até mesmo nas infraestruturas de nuvem mais robustas.

Este incidente ecoa interrupções recentes em concorrentes como Microsoft Azure e Amazon Web Services, levantando alarmes sobre a fragilidade da confiança digital global.​

Os problemas da Cloudflare resultaram de uma atualização rotineira de permissões em seu cluster de banco de dados ClickHouse, destinada a aumentar a segurança para consultas distribuídas.

Às 11h05 UTC, a alteração tornou os metadados da tabela subjacentes no banco de dados ‘r0’ visíveis para os usuários, mas uma consulta do Bot Management não conseguiu levar em conta isso, extraindo dados de coluna duplicados e inchando um arquivo de recurso crítico para dobrar seu tamanho esperado.

Esse arquivo, atualizado a cada cinco minutos para combater ameaças de bots em evolução por meio de aprendizado de máquina, superou o limite codificado do software de 200 recursos, provocando pânico no sistema proxy central conhecido como FL.

Inicialmente confundidas com um ataque DDoS massivo que coincidiu com o tempo de inatividade da página de status externa da Cloudflare, as falhas flutuantes confundiram os investigadores, pois arquivos bons e ruins se alternavam durante a implementação gradual do cluster.

O módulo Bot Management, essencial para pontuar o tráfego automatizado, interrompeu o processamento de solicitações, espalhando erros em cascata pela rede. No proxy FL2 mais recente, isso causou erros HTTP 5xx definitivos; versões mais antigas do FL padronizavam as pontuações do bot para zero, potencialmente bloqueando o tráfego legítimo para clientes que usam regras de bloqueio de bot.​

O apagão atingiu duramente os serviços principais, entregando páginas de erro aos usuários que acessavam sites protegidos pela Cloudflare e aumentando a latência devido à depuração que consome muitos recursos.

O CAPTCHA da catraca falhou totalmente, bloqueando logins; A Workers KV viu erros elevados, prejudicando indiretamente o acesso ao painel e a autenticação por meio do Cloudflare Access.

O Email Security perdeu temporariamente alguma detecção de spam, embora nenhum dado importante do cliente tenha sido comprometido e as atualizações de configuração tenham demorado. Às 17h06 UTC, a recuperação total foi alcançada após interromper a propagação de arquivos inválidos, reverter para uma versão em bom estado e reiniciar os proxies.​

O CEO da Cloudflare, Matthew Prince, expressou sinceras desculpas, descrevendo o incidente como “profundamente doloroso” e inaceitável para um grande provedor de serviços de Internet. A empresa identificou esta como a pior interrupção de tráfego principal desde 2019.

Interrupção massiva dos gigantes da nuvem

Este incidente destaca uma tendência preocupante de falhas relacionadas a problemas de configuração entre os principais provedores de nuvem.

Poucas semanas antes, em 29 de outubro de 2025, o Azure sofreu uma interrupção global devido a uma mudança de locatário com erros em seu Front Door CDN, interrompendo o Microsoft 365, o Teams e o Xbox por horas e afetando companhias aéreas como a Alaska.

Da mesma forma, a AWS sofreu um apagão de 15 horas em 20 de outubro em sua região US-East-1, onde os problemas de DNS no DynamoDB se espalharam para EC2, S3 e serviços como Snapchat e Roblox.

Um pequeno problema de comércio eletrônico da AWS atingiu a Amazon.com em 5 de novembro, paralisando os checkouts em meio à preparação para o feriado. Especialistas alertam que esses incidentes destacam a dependência excessiva de provedores centralizados, onde erros únicos podem “quebrar a Internet” repetidamente em 2025.​

Para evitar incidentes futuros, a Cloudflare está fortalecendo seus processos de ingestão de arquivos para proteger contra entradas malformadas. Eles também estão implementando kill switches globais, reduzindo a sobrecarga de relatórios de erros e revisando os modos de falha do proxy.

Embora a interrupção não tenha sido causada por intenção maliciosa, serve como um claro lembrete de que, à medida que os ecossistemas de nuvem se expandem, a importância da precisão operacional também aumenta.

Siga-nos no Google News, LinkedIn e X para atualizações diárias de segurança cibernética. Entre em contato conosco para apresentar suas histórias.





Fonte de notícias