play_arrow

Podcast

Escalabilidade e resiliência com Data Lake e S3

Vinícius Perrott 7 de dezembro de 2021 4926 18 3


Background
share close

Olá! Seja bem-vindo ao VEEZOR Podcast.

Um espaço totalmente dedicado a discutir sobre as principais tecnologias em computação em nuvem, segurança, banco de dados e inteligência artificial, gestão de identidade e tantos outros temas, que serão discutidos aqui.

Quer entender como essas e outras tecnologias em cloud podem revolucionar o seu negócio?

Entre em contato pelo site veezor.com

Esse conteúdo conta com o apoio da AWS, Amazon Web Services.

Eu sou Vinicius Perrott. Seja bem-vindo ao VEEZOR Podcast!

Vinicius Perrott: Seja bem-vindo ao Veezor PodCast. Olá, você que segue aqui a nossa minissérie, nesse bate-papo, eu conto com a presença do Diogo Dantas Arquiteto de Soluções. Gustavo seja bem-vindo.

Diogo: Obrigado.

Perrott: Diogo, vamos falar desse episódio aqui, sobre dois serviços que é muito utilizado e muito bem visto na computação em nuvem, que é Data Lake, o tal do S3. Define aqui para a gente, que serviços são estes.

Diogo: Isso. Vou começar tentando definir o que seria o Data Lake, né? Para definir o que é o Data Lake, vou fazer uma pequena comparação com o Data Ware House, que é o que os DBAs e o pessoal de analythics está mais acostumado. O Data Ware House, você armazena dados estruturados. Já no Data Lake não, você armazena dados vindos de diferentes fontes de dados, e o dado pode ser estruturado, ou não estruturado. Tanto faz. Já o S3, é um serviço da Amazon chamado Amazon Simple Story Service, na verdade, que é basicamente um serviço de armazenamento de objetos. Hoje, é o maior e mais performático serviço de armazenamento de objetos que a gente tem no mercado. E ele serve tanto para guardar dados estruturados, como dados não estruturados. Não necessariamente como Data Lake, mas funciona perfeitamente para o Data Lake. O S3, o serviço do S3, foi construído desde o início para melhorar o custo benefício, que é ao invés de você armazenar seus dados diretamente nas suas instancias, nas suas maquinas virtuais, tem um serviço específico para armazenamento de dados. Que seja muito mais escalável, seguro, e com custo mais em conta. E o que é interessante de você fazer, formar o seu Data Lake com S3, é que todas as features, todas as funcionalidades que você tem no S3, você pode trazer para o seu Data Lake. Funcionalidade de controle de acesso, gerenciamento de objetos, auditoria, ciclo de vida de objetos, controle de custo, etc. Então, basicamente, o que a WS nesse caso fez, foi dizer olha, eu tenho S3, você quer um Data Lake, só é juntar os dois. Basicamente, foi isso que aconteceu.

Perrott: Nesse caso, você falou do serviço do S3. A gente sempre acompanha alguns serviços na nuvem, que tem uns S do SLA, né? Que disponibilidade. É o famoso 99,9999. Quantos 9 tem esse S3?

Diogo: É um dos grandes benefícios do S3, é o que a gente chama de durabilidade. Durabilidade, mede a capacidade de você não perder o seu dado. Se por acaso o seu dado está armazenado em alguma zona de processamento de dados da Amazon, aquela zona ou aquele Data Center parar de funcionar, tem outros Data Center em outras zonas, que podem assumir esse serviço, sem que você perca o seu dado. E no caso específico do S3, essa durabilidade é de 11 noves. Então, 99.999999999% de durabilidade. Quer dizer que você tem menos de… você tem por volta de 0,00000000001% de chance de perder o seu dado. Então, é muito provável que você perca dados que são armazenados no S3. Mas, além dessa questão da durabilidade, o S3 é uma ferramenta muito segura, porque tem várias formas de você controlar o acesso ao S3. Além disso, tem uma escalabilidade enorme. É quase sem limite, pelo menos para nós.

Perrott: Meros mortais.

Diogo: Meros mortais aqui, é uma escalabilidade sobre demanda. O que você precisar, ele vai conseguir armazenar, e o que você precisar de consultar e extrair esses arquivos dentro do S3, você vai conseguir. Além disso, o S3 já integra com algumas ferramentas nativas da própria WS. Ferramentas de análise, né? E também pode integrar com as ferramentas de terceiros. Você pode conectar ou ferramentas de [BI] direto no S3. Tem claro, uns processos, e tal, umas formas de configurar isso, mas, é possível também. E você também consegue uma flexibilidade de configuração em nível de objeto. Você pode determinar controle de acesso para objetos específicos. Arquivos específicos, o chamado diretório. Não é esse o termo, mas, vamos chamar de diretórios específicos. Aí você consegue versionar os arquivos, você consegue encontrar o ciclo de vida daqueles arquivos, daqueles objetos, dentro do S3. Especificamente para alguns objetos, e outros não, ou se você quiser para todo o seu bucket para todo o S3, que a gente chama né, a sua bacia. É o termo que o S3 usa de bucket.

Perrott: Nesse caso, você está falando que o S3, ele é um grande discão, vamos dizer assim. Na verdade, muito mais do que isso. A gente está miniaturizando.

Diogo: Vamos chamar assim.

Perrott: Mas, só para ficar mais didático aqui no nosso episódio. Ele é um grande disco, e nele com essa característica. Além da durabilidade, resistência de ter a salvaguarda dos dados, pela quantidade de 11 noves aí que você falou. E pela forma de aplicar serviços e features de segurança. Que você falou, controle, acesso, direcionamento, nessa, esse é um super discão.

Diogo: Exatamente. E que é ideal para um Data Lake. Porque, a partir… no S3, você consegue seguir todas as etapas de formação no Data Lake. Desde a ingestão dos dados, armazenamento dos dados em grande escala. Passando pela catalogação, indexação desses dados. E conexão com as ferramentas de BI, de analythics, computação de alta performance, e de machine learning, que é um assunto que a gente tem tratado bastante aqui nos últimos PodCasts.

Perrott: Exatamente. Então, a gente pode olhar que o S3, ele agrega muito serviço, muito além de simplesmente, vai lá, armazena um disco, e está tudo certo.

Diogo: Sim, com certeza.

Perrott: O arquiteto, ele tem que olhar o S3, como uma solução que vai potencializar os serviços de infraestrutura, serviços de análise de dados, serviços de bancos de dados, como você citou o próprio Data Lake.

Diogo: Big Data também.

Perrott: Big Data, dados estruturados, e não estruturados. Nossa, realmente é um discão.

Diogo: É. E interessante, a própria WS, disponibiliza algumas ferramentas. Por exemplo, tem uma ferramenta chamada WS Glue, que é uma ferramenta de ATL completa. Aí você consegue extrair os dados, transformar os dados, e carregar os dados no seu Data Lake. Tornando possível, você conseguir pesquisar e fazer consulta nesses dados, diretamente no S3. E você pode usar outras ferramentas, mas existe uma ferramenta também na Amazon, para esse tipo de consulta, chamada Tina, que você consegue fazer consultas SQL diretamente em arquivos não estruturados dentro do S3. E arquivos de objetos estruturados também. Então, você já conhece a linguagem de [QWERYS] né, do SQL, você consegue trabalhar sem precisar fazer grandes esforços, com o armazenamento direto no S3, fazendo consultas SQL.

Perrott: Legal. Gustavo, eu sei que a gente tem muito tempo para falar de Data Lake e S3, mas, muitos insights acabou rolando aqui, e a gente vai deixar para o próximo episódio. Queria agradecer a sua participação e até a próxima.

Diogo: Valeu Perrott, até logo.

Perrott: E você que está nos acompanhando, eu falei aqui no S3 como um grande “discão”. É como eu imagino. Mas, como é que você imagina o S3 dentro do seu ambiente? Comenta aqui, deixa o seu comentário aqui embaixo. A gente quer saber o que você também pensa sobre esse superarmazenamento da AWS. Eu achei superlegal, realmente faz toda a diferença, Data Lake, com S3. Eu te vejo no próximo episódio. Até mais.

Recomento a leitura do artigo: Análise de mídia sociais impulsionada por inteligência artificial

  • cover play_arrow

    Escalabilidade e resiliência com Data Lake e S3
    Vinícius Perrott

Tagueado como: .

Avaliar a postagem
Episódio anterior
Episódios relacionados
Comentários (0)

Deixe um comentário

Seu e-mail não será divulgado.