play_arrow

Podcast

Como evitar que falhas elétricas impactem no serviço de TI?

Vinícius Perrott 22 de dezembro de 2021 4920 18 3


Background
share close

Olá, seja bem-vindo à série Papo HostDime Labs. Essa é uma iniciativa da HostDime Brasil.

Nosso objetivo é bater um papo com os especialistas das mais diversas áreas.

A cada episódio, um especialista responde as principais dúvidas do universo dos datacenters.

Leia também: Como proteger seus dados de um ataque de ransomware

Nesse episódio, eu conto com a participação da Felipe Oliveira, Coordenador de Manutenção Predial da HostDime. Felipe, seja bem-vindo.

Felipe Oliveira: Obrigado, Vinicius.

Perrott: Legal. Felipe, a gente vai falar de um tema que é muito importante sobre eletricidade. Afinal de contas, a gente sabe que para chegar na nuvem a gente precisa de alguns recursos fundamentais. E a energia elétrica é uma delas. Mas a gente sabe muito bem também que muitos dos mercados, muitos dos datacenters que a gente acompanha na internet não têm um planejamento tão adequado, planejamento estrutural na capacidade de aguentar o equipamento, novos servidores vão chegando, novos [inint] [00:00:57]. E aquela estrutura elétrica ainda é a mesma desde o seu início. Isso é a maioria. Aconteceram alguns acidentes, como queima, pane elétrica, até mesmo ruídos que todo equipamento eletrônico sofre algum ruído. Como que a gente consegue evitar esse tipo de problema dentro do nosso ambiente?

Felipe: Recentemente foi feito um estudo pela Uptime Institute, um instituto muito conceituado na questão de certificações de datacenter no mundo. E onde eles chegaram à conclusão de 75% das quedas acontecem em datacenters, das indisponibilidades, poderiam ter sido evitadas. O Estudo também revela que estes eventos levaram empresas a buscarem parceiros que oferecem uma segurança maior nesse quesito de eficiência energética, de segurança mesmo. E, não só, além de credenciais e [evidências] de boas práticas. É nesse sentido. Claro que cada tipo de downtime, cada tipo de indisponibilidade tem causas diferentes e sempre tem outras causas envolvidas, secundariamente. Porém, utilizando o banco de dados dele, o banco de dados que já de mais, em média, vinte e cinco anos, chegaram à conclusão de que 80% das perdas de cargas de TI foram ocasionadas por falhas elétricas em datacenters operados por empresas membros do instituto Uptime. Adicionalmente, a pesquisa também apontou que, em média, 63% dessas falhas são ocasionadas por erro humano. E, desses 63%, 75% delas poderiam ter sido evitadas com melhor gestão em processos adequados. Então a gente vê que é um dado muito alarmante nesse sentido. Então a gente tem processos bem definidos, certo? Nosso projeto foi concebido pela Uptime Institute, foi certificado pela Uptime de acordo com as melhores práticas da certificação Tier 3, certo? Então a gente tem um projeto certificado de design Tier 3 que já é um projeto bem elaborado. Para além disso, a gente investe em treinamento de pessoal. Por exemplo, eu mesmo tenho AOS que é fornecido pela Uptime Institute e é um curso que capacita o profissional a operar em ambientes críticos. Você ter operação em ambientes críticos. Também a gente realiza vistorias diárias pelos ambientes. Toda nossa infraestrutura elétrica é monitora online, 24h, por geração de alertas, então qualquer alerta que tiver, qualquer falha que tiver, pró-ativamente a equipe de facilities da infraestrutura a gente vai ter acesso a essa informação. Todos os nossos sistemas são automáticos, certo? Desde a parte de geração da energia própria, geradores. Além de redundantes, a gente também tem essa questão da automatização, então falhou, a gente tem dois caminhos, lado A e lado B. Da mesma forma, gerador 1, gerador 2. Tudo que é crítico a gente tem um n+1. Então, se falhar, se, por exemplo, acontecer uma falha de energia, uma falta de energia, os geradores automaticamente vão ser acionados. Se o gerador, por exemplo, não partir, o outro vai partir. Isso o sistema dá os caminhos também. Isso tudo de forma automática, sem precisar intervenção humana. Como a gente viu, tem um dado que diz, então 63% são falhas humanas, poderiam ser evitadas com processos e treinamentos. Então a gente investe isso também. A gente não precisa operar o sistema si, mas, caso seja preciso operar, todo pessoal tem um treinamento e é capacitado para fazer essa operação. A gente também busca certificações que nos dê esse respaldo, essa questão de boas praticas. Então além da Tier 3 Design, que é a questão do projeto, com a certificação fornecida pelo Uptime Institute, a gente também é certificado pela ISO9001 que garante a qualidade do sistema de gestão integrado da empresa. A ISSO 27001 que garante a qualidade do gerenciamento de segurança da informação e a ISSO 2001 para garantir a qualidade do gerenciamento do serviço de TI, dentre outras. A gente está pleiteando agora também algumas certificações LEED Leadership in Energy and Environmental Design. Então a gente sempre busca estar aprimorando essa situação. Treinamento de pessoal, capacitação, certificações para garantir que tenhamos processos que nos dê uma segurança ainda maior na questão da operação do datacenter, além de toda a questão da redundância. Tudo que é crítico tem um n+1. Por exemplo, geradores a gente utiliza todos os dias, então a gente garante que, por falta de energia, o gerador vai estar para funcionar a qualquer momento, então a gente não espera acontecer uma falha para partir o gerador e ver se ele vai funcionar ou não. Então, todos os dias, os geradores são utilizados. Da mesma forma os tanques de diesel. N+1, A e B. Então também utilizado todos os dias para reabastecimento. Então tudo que é crítico, o sistema de climatização, precisão dos ambientes são redundantes também e operam em revezamento. Então tudo que é considerado crítico a gente tem essa preocupação. Além das manutenções periódicas que já é rotina.

Perrott: Oliveira, você estava comentando vários indicadores que eu acho importante. Uma coisa que me veio aqui, um insight que eu acho que é importante a gente deixar claro para o nosso episódio, é que as empresas investem muito dinheiro em segurança da informação, inclusive já foi tratado no nosso episódio, na nossa minissérie, investe em novas tecnologias, virtualização, em uma série de outras coisas, mas a gente vê pouco sendo anunciado em investimento na segurança elétrica. E tudo isso que você falou, tanto de geradores, redundância, A + B, enfim, vários caminhos, testar esses equipamentos é o que vocês fazem. No caso, é o que você faz junto com o seu time todos os dias. Dá uma segurança muito maior do que a empresa que fez um planejamento elétrico há cinco anos e não revisa, não checa, não testa. E isso faz toda a diferença para garantir exatamente a disponibilidade e o serviço e o equipamento funciona perfeitamente. É essa a lei de raciocínio?

Felipe: É, sim. A maioria dos casos não é só ter um gerador e manter aquele gerador com uma manutenção preventiva, por exemplo, mensal, como é o nosso caso. Acontece de você fazer a manutenção preventiva hoje e amanhã o gerador puder apresentar uma falha, alguma coisa do tipo. Então é extremamente importante estar sendo feito esses testes e a utilização desses equipamentos para que, caso venha acontecer uma necessidade maior, ou uma falta de energia por parte da concessionária, por exemplo, a gente sabe, tem a segurança que o equipamento vai estar apto a funcionar e suprir a necessidade. Isso também se estende aos demais sistemas. Além da manutenção preventiva em si, é bom se fazer os testes, ter todo o cuidado, a atenção, fazer vistorias nos equipamentos, fazer rotinas de lubrificação, de aperto. Então todo esse cuidado com a parte de manutenção é importante e também é necessária a parte dos testes também.

Perrott: Maravilha. Oliveira, queria agradecer a sua participação na nossa minissérie e até a próxima oportunidade.

Felipe: Eu que agradeço. Até mais.

Você que nos acompanha tem alguma pergunta ou comentário?

Mande aqui para a gente pelo link hostdime.com.br/papocloud.

E outro conteúdo que complementa o nosso bate-papo é o Guia Definitivo para Otimizar Segurança de Dados da Sua Empresa com Cloud Computing.

O link está na descrição desse episódio e no seu agregador de podcast favorito ou lá no site do Papo Cloud.

Aqui a sua jornada será um sucesso!

Até o próximo episódio do Papo HostDime Labs.

 

E aí?
Tá Na Nuvem?

Convido você a comentar lá no nosso grupo do Telegram: bit.ly/papocloudtelegram.

  • cover play_arrow

    Como evitar que falhas elétricas impactem no serviço de TI?
    Vinícius Perrott

Tagueado como: .

Avaliar a postagem
Episódio anterior
Episódios relacionados
Comentários (0)

Deixe um comentário

Seu e-mail não será divulgado.