Apagão do Facebook: o dia em que um ponto único de falha parou a comunicação global

Na primeira semana de outubro só se ouviu falar em um assunto no mundo tech: a semana ruim que Mark Zuckerberg, CEO do Facebook, estava vivenciando em meio às denúncias de ex funcionários, interrupções no serviço global e quedas no mercado financeiro.

Pouco antes do meio-dia de 04 de outubro, os usuários do mundo inteiro começaram a relatar mensagens de erro ao tentarem acessar o Facebook e outros serviços de mídia social como Instagram e WhatsApp, plataformas compradas e fundidas pela gigante das mídias sociais. Esta foi sabidamente a primeira grande interrupção desde que a plataforma parou por um dia inteiro em 2019.

O vice-presidente de engenharia e infraestrutura do Facebook atribuiu a inatividade a um problema técnico interno decorrente de alterações na configuração dos roteadores de backbone, que teria gerado outros eventos em cadeia, como a falha de comunicação dos data centers. O pedido público de “sinceras” desculpas, dadas muito mais para garantir a confiança dos usuários do que para justificar verdadeiramente o episódio, gerou especulações de toda parte sobre o que de fato aconteceu. A única certeza que se tem é que milhões de pessoas foram fortemente impactadas pela indisponibilidade da plataforma e seus afiliados, com impacto maior sendo sentido por empresas e comércio eletrônico que anunciam e se comunicam pela rede.

Resolvidos os problemas e recuperados os sistemas a lição que podemos tirar deste incidente é: evite o single point of failure (ponto único de falha). O ponto único de falha se contrapõe aos objetivos de alta disponibilidade e confiabilidade. Eles são indesejáveis porque podem derrubar um sistema inteiro, desde um único computador a rede de toda a empresa, a exemplo do que aconteceu com o Facebook que teve problemas também na comunicação dos sistemas internos da companhia, limitando inclusive o acesso de funcionários ao escritório.

Vamos pensar num edifício: não é via de regra, mas o mais usual é que um edifício tenha vários elevadores. E para que serve essa redundância? Para assegurar que se um primeiro elevador falhar, as pessoas possam contar com um segundo ou terceiro e manter o seu deslocamento entre andares. Da mesma forma, os sistemas com exigência de alta disponibilidade nunca devem depender de componentes únicos, o ideal é que apostem na redundância da infraestrutura computacional interna e externa, site e até mesmo na redundância das medidas de segurança que adotam.

Quando se fala em redundância, há uma relação entre custo e disponibilidade do sistema que deve ser considerada. Geralmente, os custos são muito menores do que operar em modo de emergência e ter o sistema inativo. O episódio de indisponibilidade de algumas horas do Facebook custou milhões no valor de mercado da empresa. Além disso, como efeito dominó, pequenas, médias e grandes empresas que dependiam da plataforma para se comunicar também foram prejudicadas financeiramente pela indisponibilidade prolongada dos serviços. Embora nenhum de nós goste de pensar nessa contingência, é melhor estar ciente de que “tudo falha, o tempo todo”, mantra difundido por Werner Vogels, diretor de tecnologia e vice-presidente da Amazon.

Como encontrar e eliminar pontos únicos de falha?

Os SPOFs são comumente atribuídos a empresas que não têm um grande orçamento de TI e precisam manter os custos baixos. Mas se o Facebook, a maior rede social do mundo, que é sistematicamente importante para a atividade econômica global não ficou imune ao problema, nos resta admitir que eliminar todos os SPOFs beira o impossível para organizações de qualquer porte. Daí a importância de aumentar a consciência de que todo serviço de tecnologia tem um objetivo, mas pode falhar nesse objetivo. Nesse caso, uma organização pode simplesmente aceitar a existência do SPOF e conviver com o risco ou, mesmo tendo a ideia de que é muito caro duplicar os recursos computacionais, investir em medidas para reduzir a exposição da empresa.

Então, o que pode ser feito com relação aos SPOFs? A melhor abordagem para lidar com eles é identificá-los e remediá-los. Encontrar os pontos únicos de falha implica em considerar pelo menos 4 elementos comuns de onde eles costumam advir:

Falhas de hardware
Falhas de software
Falhas humanas
Corrupção de banco de dados

Por fim, nos resta perguntar: se você não planeja uma viagem longa num carro que não tem um pneu sobressalente, porque dirigiria sua empresa sem garantias do bom funcionamento do ambiente operacional? Processos de negócios que não podem ser replicados em outro lugar apresentam problemas óbvios com impacto significativo na capacidade de recuperação e no plano de continuidade da organização, logo, você precisa pensar num nível necessário de redundância que possa manter o fluxo de seus processos constante e atenda suas necessidades de negócios.