A origem do problema foi identificada como uma falha na resolução DNS dos endpoints regionais do DynamoDB, detetada inicialmente às 11h49 (hora local) de 19 de outubro. Este erro provocou um efeito em cascata que afetou múltiplos serviços críticos, incluindo o EC2, Lambda, CloudWatch e Network Load Balancer. Mesmo após a correção inicial do DynamoDB, outras dependências internas continuaram a sofrer degradações, agravando a instabilidade.
Durante o processo de recuperação, a AWS optou por limitar temporariamente várias operações, como o lançamento de instâncias EC2, o processamento de filas SQS e as invocações assíncronas de funções Lambda, de forma a estabilizar a rede. A normalização dos sistemas foi alcançada às 15h01 (hora local) de 20 de outubro, embora alguns serviços, como o AWS Config, Redshift e Connect, tenham continuado a processar pendências por várias horas adicionais.
A interrupção teve repercussões globais, uma vez que diversos serviços dependem da região US-EAST-1, nomeadamente a autenticação IAM e as tabelas globais do DynamoDB. Entre os principais sintomas registados estiveram falhas no lançamento de instâncias EC2, erros nas funções Lambda e dificuldades no acesso a bases de dados e armazenamento.
Durante o pico do incidente, até o suporte técnico da AWS foi afetado, impossibilitando a criação ou atualização de pedidos de assistência. A empresa comprometeu-se a publicar um relatório detalhado sobre o ocorrido e as medidas de mitigação a implementar.
Como recomendação, a AWS aconselha os clientes a configurarem grupos de Auto Scaling em múltiplas zonas de disponibilidade e a evitarem o direcionamento de instâncias para zonas específicas, garantindo assim maior resiliência em caso de falhas regionais.