instabilidade da aplicação

Instabilidade da aplicação

Duas semanas após a última instabilidade tivemos um novo incidente extremamente grave que prejudicou a experiência de uso da aplicação e impediu a utilização do Hiper Gestão durante um dia inteiro. O objetivo desta publicação é explicar o ocorrido e que ações estamos executando para evitar reincidências.

O que ocorreu?

O Hiper Gestão é um produto online hospedado em infraestrutura em nuvem com uma centena de componentes e recursos desenvolvidos para suportar a carga diária de transações e volumes de dados armazenados. Existem bancos de dados, microsserviços, bloqueios de segurança, recursos de balanceamento de carga, serviços de sincronização, entre outros.

Entre os vários componentes, temos um banco de dados de cache (utilizado para acesso rápido à informações) que armazena aproximadamente 50 milhões de registros e responde pelas informações de licenciamento, estoque, entre outros dados. Na madrugada do dia 15/02, nós iniciamos um procedimento para separar a camada responsável pelo licenciamento daquela relativa ao estoque, para melhorar a eficiência e garantir disponibilidade. A manutenção ocorreu conforme esperado, realizamos todos os testes e na madrugada de terça (15/02) para quarta (16/02) a aplicação estava operando normalmente.

Contudo, às 7h da manhã da quarta-feira (16/02), um procedimento automático de recálculo do estoque derrubou o banco de dados de cache. Neste mesmo instante o time passou a atuar para identificar a causa. Sabíamos onde estava o problema porém o grande desafio foi estabilizá-lo, pois em um ambiente de grandes proporções, cada operação realizada pelo time levou em torno de uma hora para surtir efeito. Além disso, com o grande volume de usuários procurando acessar e utilizar os produtos (Gestão, Caixa e Loja), a estrutura passou a não suportar e impedir qualquer tentativa de restabelecer o serviço.

Solução

A solução ocorreu em definitivo a partir do momento que reconstruímos a estrutura do banco de dados de cache. Este procedimento consumiu boa parte da tarde e terminou no início da noite. A demora na estabilização se deu por uma série de fatores técnicos diante da complexidade da situação, mas o time veio atuando sem intervalos até encontrar a solução.

Na manhã do dia 17/02 o Hiper sofria reflexos na utilização devido ao alto volume de dados que estavam aguardando sincronizar, considerando que no dia anterior estas operações ficaram acumuladas. Nosso time seguiu acompanhando e gerenciando os recursos para garantir a normalização que ocorreu no início da tarde deste mesmo dia.

Compromisso

Após a normalização da situação temos o hábito de fazer o post-mortem para avaliar o incidente e mapear as ações para evitar novas ocorrências. Precisamos pensar em todas as formas de minimizar os riscos e ter possibilidades de contingência. A aplicação não pode parar!

Temos uma equipe diversificada com profissionais de bastante experiência, inclusive com passagens por outras grandes empresas. Além disso, contamos com consultoria especializada que nos presta apoio em assuntos relacionados à tecnologia.

Vamos manter uma comunicação mais frequente para compartilhar todas as ações em andamento e dar transparência a tudo o que estamos realizando e planejando.

Agradecemos sua compreensão e ficamos a disposição.