Em 20 de outubro de 2025, a internet presenciou uma nova interrupção em larga escala na infraestrutura da AWS, com impactos que atravessaram setores e continentes. Plataformas como Fortnite, Snapchat, Amazon (loja, Alexa), Ring, Perplexity, além de serviços financeiros, sites governamentais e diversos aplicativos foram afetados.
Essa falha reacende discussões críticas sobre dependência de provedores de nuvem dominantes, resiliência de sistemas distribuídos e estratégias de mitigação para arquiteturas modernas.
Ao longo deste artigo, vamos destrinchar:
- O que se sabe até agora sobre a causa e o curso do incidente
- Quais serviços foram afetados e com que intensidade
- Como a AWS respondeu (e ainda está respondendo)
- Históricos de falhas anteriores na AWS e (o que se aprende com isso)
- Lições e recomendações para arquiteturas mais robustas
- Reflexões para a comunidade de desenvolvedores e empresas usuárias de nuvem
1. O que se sabe até agora: cronologia e causa aparente
1.1 Cronologia dos eventos
- Por volta de 03:11 AM (ET), a AWS detectou uma falha operacional originalmente relatada como pertencente à região US-EAST-1 (Virginia).
- Rapidamente os relatórios de erro e latência aumentaram para múltiplos serviços.
- A AWS indicou que uma falha no Sistema de Nomes de Domínio (DNS) foi um dos vetores críticos do problema: esse componente é essencial para traduzir domínios em endereços IP, funcionando como um “mapa” de tráfego da internet.
- Em paralelo, foram reportados “erros significativos” na API e problemas de conectividade para múltiplos serviços dentro da US-EAST-1.
- Às 06:35 AM (ET), a AWS declarou que o problema subjacente havia sido “totalmente mitigado” e que muitos serviços estavam retornando ao normal.
- Ainda assim, muitas plataformas relataram que continuavam enfrentando erros residuais ou atrasos, especialmente em pontos críticos que demandam alta escala e sincronização.
1.2 Causa (o que a AWS admite até agora)
Segundo os comunicados e updates públicos:
- A AWS reconheceu que DynamoDB, seu serviço de banco NoSQL gerenciado, teve incidência de “taxas de erro significativas” em sua endpoint na us-east-1 durante o incidente.
- A falha de DNS serviu como gatilho que afetou a capacidade de diversas aplicações de localizar recursos (e, consequentemente, de funcionar).
- Parte da recuperação envolveu restaurar o monitoramento da saúde dos “load balancers internos” da AWS e reduzir a limitação (throttling) na criação de novas instâncias, para aliviar o backlog de pedidos.
- A AWS mantém uma política de publicar Post-Event Summaries (PES) quando incidentes têm impacto amplo, detalhando escopo, causas, fatores contribuidores e ações corretivas.
- Até o momento, não há indicação pública de ataque (por exemplo, DDoS ou ação maliciosa) como causa primária: o problema é tratado pela AWS como uma falha interna de infraestrutura.
2. Impactos: quem sofreu e como
2.1 Serviços e plataformas impactadas
A extensão do impacto foi enorme, pois muitos grandes players dependem da AWS:
- Jogos e plataformas de entretenimento: Fortnite, Roblox, Epic Games Store, Wordle
- Redes sociais e apps de comunicação: Snapchat, Signal, Reddit e até partes do ecossistema X (o antigo Twitter) relataram interrupções ou degradação de serviço.
- Serviços financeiros e cripto: Coinbase, Robinhood, Venmo tiveram problemas de conectividade ou operações degradadas.
- Aplicativos de produtividade, educação e utilitários: Duolingo, Canva, Zoom, entre outros, foram afetados.
- Serviços da Amazon: lojas, Alexa, Ring, Prime Video, etc. Também sofreram com degradação ou interrupção temporária.
- Governos e instituições: no Reino Unido, sites da HMRC, Lloyds Bank e outros sofreram impacto.
2.2 Intensidade e duração
- A pane se estendeu por várias horas até que o núcleo do problema fosse mitigado.
- Algumas restaurations foram rápidas, outras tiveram atraso por conta do backlog de requisições acumuladas durante o pico.
- Mesmo após a mitigação principal, diversos serviços relataram erros residuais ou instabilidade enquanto os sistemas estabilizavam.
- O episódio é considerado um dos mais sérios desse tipo para a AWS nos últimos anos.
3. A resposta da AWS e próximas etapas
3.1 Ações imediatas adotadas
- Mobilização de engenheiros nos domínios de rede, DNS, APIs e controle de tráfego.
- Aplicação de mitigação nos “sub-sistemas internos de monitoramento de balanceadores de carga” para reabilitar a visibilidade da saúde interna de rede.
- Redução de throttling para permitir mais instâncias e aliviar congestionamentos acumulados de requisições pendentes.
- Relatórios públicos regulares através do painel de saúde (AWS Health Dashboard) para acompanhar status, efeitos e progressos.
3.2 Próximas etapas previstas / esperadas
- Publicação do Post-Event Summary (PES) detalhado com os aprendizados e medidas corretivas previstas.
- Revisões arquiteturais internas da AWS para reforçar a resiliência de serviços DNS, APIs e balanceadores de carga, especialmente na região US-EAST-1.
- Adoção de melhorias de redundância, segregação de tráfego e mecanismos de failover mais agressivos.
- Monitoramento e auditoria contínuos para garantir que ajustes não introduzam novos riscos ou regressões.
- Maior comunicação proativa com clientes sobre arquitetura recomendada para tolerância a falhas regionais.
4. Histórico de quedas da AWS e padrões recorrentes
Para contextualizar este evento, convém observar que a AWS já enfrentou diversos incidentes no passado, especialmente relacionados à região us-east-1, com lições importantes para arquiteturas em nuvem:
- Em 2017, um erro humano (comando de debugging incorreto) causou uma falha que afetou uma ampla gama de serviços.
- Em novembro de 2020, uma pane na região us-east-1 afetou Roku, Adobe e outros clientes.
- Em outras ocasiões posteriores (2021, 2022, 2023), a AWS já reportou interrupções em APIs, rede, serviços de banco de dados ou controle de instâncias nas suas regiões centrais.
Esses eventos mostram que, apesar da robustez geral da plataforma e dos investimentos em resiliência, ainda há pontos frágeis, especialmente em regiões críticas e componentes de controle (DNS, APIs, monitoramento interno).
5. Lições e recomendações para arquiteturas mais resilientes
Para times técnicos, arquitetos de sistemas, startups e empresas que dependem de nuvem, esse episódio reforça alguns princípios estratégicos:
- Redundância multi-regional
Mesmo que uma região AWS pare de funcionar, a aplicação deve ser capaz de falhar para outra região sem interrupções críticas. - Uso de múltiplos provedores de nuvem (multi-cloud ou híbrido)
Depender exclusivamente de um único provedor coloca toda a operação em risco num evento catastrófico desse tipo. - Fallback e circuit breakers em dependências críticas
Em casos de falha de subsistemas como DNS, quebras de circuitos ou rotas alternativas devem entrar em ação. - Cache DNS e TTL mais longos (onde aplicável)
Em partes da arquitetura que dependem de resolução de nomes, mitigar consultas massivas durante falhas. - Monitoramento proativo e alertas distribuídos
Ter métricas de latência, erros e saturação em cada camada (rede, API, banco) e alertas bem definidos pode antecipar falhas. - Testes de failure injection (caos engineering)
Simular falhas regionais, de API ou de rede para aprender como o sistema se comporta em cenários adversos. - Planejamento de escalabilidade e retirada de gargalos em APIs de controle
Evitar que processos de autoescala ou de metadados percam acesso em momentos críticos. - Comunicação e planos de contingência
Saber comunicar aos clientes internos e externos quais serviços ficarão degradados ou indisponíveis, e ter plano de recuperação.
6. Reflexões finais para o ecossistema de tecnologia
- A escala, interdependência e concentração de infraestrutura em alguns provedores de nuvem conferem poder (e risco) gigantescos.
- Incidentes desse porte tendem a reverberar muito além da própria AWS: empresas menores, startups e serviços dependentes podem sofrer degradação ou queda colateral.
- Transparência e post-mortems bem estruturados são vitais para restaurar confiança e permitir aprendizado coletivo.
- A era da “infraestrutura invisível” ganha relevo: quanto mais dependemos do provedor, mais crítico é entender as camadas abaixo (rede, controle, resiliência).
- O que parecia um “fato remoto” agora se torna um alerta prático: tolerância a falhas extrema não é luxo, é requisito para sistemas críticos.




