Como usar a AWS cola

Como usar a AWS cola
A AWS Glue é um serviço de integração de dados totalmente gerenciado que entrega e integra dados e permite que os usuários executem rastreadores e criem e monitoram trabalhos ETL (Extrair, Transformar e Carregar). A AWS Glue funciona em um ambiente sem servidor e permite que os usuários realizem atividades em uma infraestrutura escalável. A AWS Glue extrai dados de outros serviços da Amazon como S3 ou AWS Kinesis e integra os dados acessados.

Quando os usuários criam trabalhos ETL e rastreadores na AWS Glue, eles precisam especificar e declarar o local de destino para os dados e a fonte de dados, respectivamente. Isso significa que a cola da AWS não pode ser usada sozinha, mas o usuário precisa armazenar dados em serviços de armazenamento como baldes S3 e depois tornar esses dados acessíveis para o serviço de cola da AWS. Os usuários também podem criar bancos de dados, tabelas, esquemas, conexões, etc., na AWS cola.

Este artigo explicará o processo de usar cola da AWS em etapas fáceis.

Como usar a AWS cola?

Para entender o uso da AWS Glue, primeiro, faça login no console da AWS e depois procure a AWS Glue nos Serviços da AWS.

Na primeira interface da AWS Glue, haverá um menu no lado esquerdo que conterá a lista de todas as tarefas possíveis que podem ser executadas usando a cola da AWS, como rastreadores, bancos de dados, tabelas, esquemas, etc.

Se clicarmos no botão "Comece", a próxima interface exibirá três tarefas diferentes, eu.e., Veja trabalhos, visualize o monitoramento e visualize conectores.

Para criar empregos na AWS Glue, o usuário precisa primeiro configurar o trabalho de acordo com os detalhes, como a localização de baldes, objetos, pastas e clusters da AWS S3. Então, para usar a AWS cola. É necessário armazenar alguns arquivos no serviço de armazenamento S3 da AWS.

Crie um balde S3

Primeiro, visite o serviço "Amazon S3" da AWS e crie um novo balde S3 lá.

Crie pastas no balde

Depois de criar um novo balde S3 na Amazon S3, crie uma pasta abrindo os detalhes do balde e clicando em "Criar pasta".

Basta fornecer um nome à pasta:

Dessa forma, a pasta é criada.

Agora, crie outra pasta no balde.

Carregar objetos

Agora, vá para "Objetos" e clique no botão "Upload". Navegue os arquivos do sistema que deveriam ser carregados para o recém -criado Bucket Amazon S3.

A mensagem de sucesso na parte superior da interface verifica se os objetos selecionados do sistema são carregados com sucesso no balde da AWS S3.

Abra a AWS Glue

Depois de fazer upload de objetos e adicionar pastas no balde S3, o usuário pode executar tarefas na cola da AWS. Procure e abra o serviço de cola da AWS nos serviços da AWS.

Crie rastreador

Haverá um menu no lado esquerdo contendo os nomes de todas as tarefas executadas na AWS Glue. Selecione a opção “Crawlers” no menu fornecido e crie um rastreador.

Digite um nome para o rastreador.

Selecione o balde recém -criado como o caminho S3 do rastreador para que esse rastreador possa acessar esse balde:

Declare o banco de dados de destino selecionando qualquer um dos bancos de dados criados na AWS Glue ou crie um novo banco de dados e selecione isso:

Depois de configurar tudo o que é necessário para criar um rastreador, clique no botão "Criar rastreador":

Depois que o rastreador foi criado, clique no botão "Run Crawler" para tornar o rastreador ativo:

Crie um trabalho ETL

Selecione a opção "Jobs" no menu do lado esquerdo:

Isso era tudo sobre como usar a cola da AWS.

Conclusão

A AWS Glue é um serviço AWS sem servidor que extrai dados de outros serviços da AWS, como S3 Buckets. Pode haver clusters, bancos de dados, empregos, etc., Criado em Aws Glue. Uma das principais tarefas da AWS Glue é criar trabalhos de ETL. Depois de armazenar alguns arquivos nos serviços de armazenamento da AWS, os trabalhos da ETL podem ser criados configurando os detalhes do trabalho de forma que eles possam acessar os arquivos.