Prezado cliente,

 

Este documento tem o objetivo de explicar o incidente ocorrido neste sábado (01/09) que causou a indisponibilidade das lojas Tray Corp. Que foi informado aqui.

 

Descrição do Incidente.

Às 12:07 nosso sistema de monitoramento notificou problemas em nossa infraestrutura de redes e servidores. Imediatamente iniciamos a verificação para identificação e correção do problema.

Após primeira análise, detectamos problemas críticos em nossa estrutura de firewall, com degradação de performance e indisponibilidade.

Por se tratar de um problema crítico, todos os times e especialistas foram acionados para auxiliar na rápida correção do problema com as seguintes atividades:

1 - Contato com a empresa que faz a gestão dos firewalls. Os equipamentos apresentavam falha geral impossibilitando o acesso para gestão ou manutenção;

2 - Acionamos nosso time no data center para analisar localmente o problema. Em poucos minutos os especialistas estavam em nosso ambiente e confirmaram que os firewalls estavam totalmente indisponíveis, não respondendo a comandos básicos. Desta forma foi efetuado um restart forçado nos equipamentos.

3 - Após executar o procedimento manual, os equipamentos voltaram a responder com sucesso.

Como descrito acima, uma falha geral nos equipamentos da camada de firewall causou uma indisponibilidade de 1 hora em todo o ambiente Tray.

A Tray realizou grandes investimentos em uma nova solução de segurança de última geração que trará maior disponibilidade, performance e segurança para todos os sistemas oferecidos a seus clientes.

Na última semana concluímos a instalação parcial dos novos firewalls e estes já estão em operação em um dos nossos data centers. Estamos trabalhando para ativar esta mesma estrutura em nosso data  center principal o quanto antes.

Portanto estamos trabalhando em ações de melhorias a partir deste problema.

 

  • [CONCLUÍDO] Aquisição de nova solução de firewall de última geração e tolerante a falhas.

 

  • [CONCLUÍDO] Troca dos firewalls em um dos data centers.

 

  • [EM ANDAMENTO] Planejamento e adequação da infraestrutura para manutenção e troca dos firewalls em nosso data center principal.

 

  • [MELHORIA CONTÍNUA] Rever e melhorar o plano de redundância e recuperação de desastres. Temos uma grande infraestrutura dividida em data centers distintos para oferecer a alta disponibilidade para nossos clientes e não aceitamos incidentes deste nível.

Sentimos muito por ter ocorrido o problema. Vamos trabalhar arduamente para oferecer soluções de alta disponibilidade para nossos clientes.

 

Rafael Carlos 
Tem mais dúvidas? Envie uma solicitação

Comentários

    Artigos nessa seção