Como lidar com uma interrupção de serviço

Nasdaq e Intermedia estão entre as mais recentes empresas a sofrerem falhas no serviço. Eventualmente, a mesma coisa vai acontecer com a empresa onde trabalha.

A 22 de Agosto, a Nasdaq ficou com processos de negociações interrompidas durante mais de três horas , devido a uma “série de eventos tecnológicos”, vários deles provocados por problemas de ligação com a Nasdaq OMX, a empresa responsável pela gestão operacional da bolsa. Na quarta-feira, 4 de Setembro, um novo problema fez o sistema colapsar por seis minutos.

Apesar de ter envolvido o mesmo sistema, a Nasdaq atribuiu o incidente a uma “falha de memória num servidor de back-end”. Um dos maiores fornecedores mundiais de serviços Microsoft Exchange, a Intermedia,  também teve de lidar com uma ruptura de serviço.

A 03 de Setembro, um dia depois de um fim-de-semana prolongado nos Estados Unidos, o prestador de serviço esteve indisponível durante cinco horas, e muitas contas de email ficaram inacessíveis. Como diz um ditado em relação aos políticos: “nunca deixe uma boa crise ir para o lixo”. Há lições que os líderes de TI podem aprender com as interrupções de serviços dessas empresas:

1- Procure testar regularmente para conseguir planear acções pós-desastres

Os desastres acontecem. As pessoas costumam argumentar que se deve adoptar uma atitude mais positiva sobre as suas operações e implantações de TI. Mas mesmo convicto de se ter feito o melhor, convém ter consciência de que os sistemas vão falhar.

Não é uma questão de se – é uma questão de quando. Procure perceber as consequências de uma interrupção, e como afectarão diferentes partes do negócio, quais são os factores para elas ocorrerem e o que preciso fazer para contorná-las e minimizá-las.

Grande parte desse planeamento para reagir a desastres depende do tipo de serviço prestado. Quando se é um CIO que gere um serviço de email para 100 mil empregados, o plano de catástrofe terá um aspecto diferente daquele de uma equipa técnica responsável por sistemas que servem 500 mil clientes externos.

Procure saber quais são os custos de mitigação, assim como os custos de backup e dos sistemas em espera. Investigue como os serviços de cloud computing, como a Amazon Web Services e Windows Azure, podem ajudar a tornar uma situação de inactividade um pouco mais suportável: beneficiando da capacidade de aceder a serviços a pedido, quando se precisar deles, e encerra-los quando a situação melhorar.

Finalmente, agende a realização de “falhas simuladas”. Além de rever o seu plano de continuidade de negócios pelo menos uma vez por ano, deve colocá-lo em prática no mínimo com a mesma frequência.

Trace os caminhos a serem percorridos por todos os envolvidos em uma determinada falha e documente as responsabilidades de cada um. Aproveite a oportunidade para envolver todas as partes interessadas, sem a pressão de um colapso real. Dessa forma, o plano será bem conhecido quando o inevitável acontecer.

A tecnologia serve para suportar as políticas para recuperação de desastres, mas não constitui, por si só, uma solução isolada. Os gestores precisam de ter em mente que a estratégia para gerir esse tipo de problema deve ser um processo contínuo – o qual deve garantir uma actualização constante das iniciativas e necessita de ser testado de forma regular.

É importante actualizar periodicamente a análise de impacto para os negócios e o levantamento de riscos como parte da estratégia específica para recuperação de desastres. Essa atitude proactiva, mais do que preparar a empresa para possíveis problemas, tende a economizar somas substanciais das organizações a longo prazo.

As empresas que adoptam esse modelo conseguem substituir o termo ‘recuperação de desastres’ por ‘continuidade dos serviços de TI’.

2 – Isolar as suas comunicações a partir de sua plataforma de serviços

Colocar os telefones, o serviço de email, de mensagens instantâneas e comunicação em tempo real ali no seu centro de dados rápido, juntamente com os serviços você oferece, parece fazer sentido.

Na maioria das vezes, pode funcionar bem.  Mas até um gestor júnior pode ver o problema desta configuração.

Quando a conectividade de rede for interrompida no centro de dados, por qualquer razão, a empresa fica em apuros e sem comunicações. Os clientes ficam descontentes e os funcionários não conseguem trabalhar.

Quando se é responsável por um site de comércio electrónico, e não se consegue fazer o pagamento das encomendas, usando cartões de crédito ou débito, as receitas evaporam-se. Se os clientes não puderem telefonar para colocar os seus pedidos há o risco não só de perder a ordem de compra como o cliente também.

A falha na Intermedia foi um bom exemplo. O CEO Phil Koen observa que, como os sistemas de comunicação da empresa residem nos mesmos datacenters que ficaram inacessíveis, a capacidade de a empresa comunicar com os clientes e parceiros também foi interrompida.

Essa é uma maneira rápida de levar os seus clientes a correrem para os concorrentes. Para uma empresa que se orgulha em oferecer serviços alojados tolerantes a falhas, foi um tremendo erro, tanto na sua topologia de serviço e como na sua capacidade de lidar com uma interrupção.

3 – Comunicar, comunicar e comunicar

Em caso de dúvida, é útil comunicar um pouco mais. A tentação durante uma interrupção é de nos concentrarmos em resolver o problema com praticamente todos os recursos disponíveis alocados à tarefa. Não nos podemos esquecer da existência de outros interessados na questão, independente do facto do colapso ser interno, externo ou ambos.

Quando se executa um serviço para os clientes, eles esperam saber o que está a acontecer, em caso de falha de serviço, e obter uma estimativa o restabelecimento do serviço: ” em breve “ou” logo que possível” não são respostas plausíveis. “Dentro de meia-hora” ou “ao meio-dia” é mais correcto.

Entretanto no caso de se ter uma falha num sistema interno, especialmente um sistema crítico para os negócios, então será necessário enviar actualizações para as partes afectadas: assim que perceber o problema e, em seguida, em intervalos regulares e frequentes, até que o problema seja resolvido.

A comunicação não pode ser tardia. Deve ser uma alta prioridade – perdendo apenas para a resolução da falha. O risco é tornar uma situação numa ainda pior, criando um vácuo de informação.

Entre os principais passos recomendados estão o mapeamento das plataformas sociais já são usadas por funcionários, clientes e outras partes interessadas. A utilização dessas plataformas durante os esforços de gestão de incidentes e crises deve estar incluído: o uso de redes sociais para suportar comunicações durante um desastre, e reunir informações e o apoio dos recursos externos podem ajudar a garantir a resiliência dos negócios em curso.

Os profissionais de gestão de continuidade dos negócios devem começar a avaliar as oportunidades disponibilizadas pelas redes sociais imediatamente – mas também os riscos.

4 – Teste os backups de vez em quando

Os sistemas de backup raramente partilham as mesmas especificações que os sistemas primários. Muitos sistemas de backup são mais levemente equipados, por não serem usados com muita frequência.

Estas decisões, podem ser assustadoras: como esses sistemas geralmente são usados apenas em momentos de pressão, podem falhar no momento crítico se não forem permanentemente testados.

Defina horários para mover a carga regular para os seus sistemas de backup. Use-os muitas vezes mesmo se estiver confiante na sua capacidade de serviço, se algo correr mal com os sistemas primários.

(Jonathan Hassell, CIO/EUA)




Deixe um comentário

O seu email não será publicado