Declarações SQL para cientistas de dados

Declarações SQL para cientistas de dados
SQL significa linguagem de programação estruturada. É uma linguagem de consulta simples que permite gerenciar os dados de um banco de dados.

Um banco de dados é uma coleção de dados armazenados em um sistema de computador. O SQL é uma das linguagem de programação mais universal que pode executar milhares de funções, incluindo leitura, escrita e manipulação de dados.

É a linguagem de programação padrão para o gerenciamento de bancos de dados relacionais e é usada por cientistas da computação, analistas de dados e cientistas de dados em todo o mundo.

Neste guia, analisaremos as declarações ou consultas SQL que são usadas extensivamente na ciência de dados.

Este guia usa o software PostGresql para executar as consultas. Você pode baixá -lo no site oficial clicando aqui.

Com isso dito, vamos começar!1

1. Selecionando todas as colunas

A instrução SELECT é uma das consultas SQL mais fundamentais. Esta declaração ajuda você a selecionar algumas ou todas as colunas do banco de dados. Você estará usando esta função em seus projetos de ciência de dados.

Para selecionar todas as colunas, use '*' como mostrado no exemplo a seguir:

"Produto" é uma tabela que é consiste em 3 colunas. Depois de executar a consulta anterior, podemos olhar para as colunas presentes dentro da tabela de produtos.

2. Da cláusula

Da cláusula vem depois de selecionar e ajuda a identificar onde a coluna está localizada na tabela pelo nome.

Ao especificar várias tabelas, use vírgulas e espaço entre os nomes de tabela. Isso é mostrado no exemplo a seguir:

A saída é mais específica com apenas uma coluna. Isso é mostrado no seguinte:

3. Onde cláusula

A próxima declaração depois é onde. Isso nos ajuda a filtrar os dados do banco de dados com base em determinadas condições.

Saída:

4. Grupo por declaração

Esta cláusula é usada para selecionar e agrupar as linhas que têm os mesmos valores.

Na consulta SQL fornecida, agruparemos duas linhas onde o Product_price é igual a 6.

A saída terá uma nova coluna chamada contagem. É seguido pela coluna product_name, como mostrado no seguinte:

5. Tendo declaração

Funções de agregação como soma, avg, max, min, etc. não pode ser usado dentro da cláusula onde. Para usá -los, você precisa usar a declaração. Isso é demonstrado com a ajuda do seguinte código:

Saída:

6. Ordem por declaração

A partir do nome, a ordem por comando é usada para listar os registros em ordem ascendente ou decrescente. Para ascender, use a ordem sozinha ou adicione a palavra -chave "ASC" ao longo dela. Da mesma forma, para classificar os valores em ordem decrescente, use a palavra -chave "desc" junto com a ordem por.

Para ordem descendente:

Saída:

Da mesma forma, para ordem crescente:

Saída:

7. Declaração limite

O limite é uma instrução SQL importante que ajuda você a especificar o número de registros para retornar do banco de dados. Por exemplo, para retornar apenas duas linhas do nosso banco de dados, use o comando LIMIT da seguinte forma:

Saída:

8. Funções de dados predefinidas

As funções predefinidas são muito importantes no SQL, pois ajudam os cientistas de dados a economizar tempo. Essas funções também são chamadas de funções agregadas que funcionam em um conjunto de linhas em vez de uma única linha e retornam um único valor. Existem muitas funções agregadas diferentes. Alguns importantes estão listados no seguinte:

Contagem (*) -> retorna o número de linhas.

Min () -> encontra o valor mínimo na coluna.

Max () -> encontra o valor máximo na coluna.

SUM () -> A soma de todos os valores dentro do nome da coluna.

Qual é o preço máximo em nossa tabela de dados?

Saída:

9. Interno, esquerda e direita se junta

Existem muitos tipos de junções, mas os três principais são discutidos aqui.

A junção interna é a junção mais simples e comum usada para criar uma nova tabela que possui linhas correspondentes nas colunas esquerda e direita.

Saída:

A junção esquerda retorna todas as linhas na coluna esquerda e as linhas correspondentes na coluna direita.

Saída:

Aqui, ingressamos na coluna Product_profit da Tabela2 com a coluna Product_name da Tabela 1.

A junção certa é o oposto da junção esquerda. Ele retorna todas as linhas presentes na coluna direita e nas linhas correspondentes na coluna esquerda.

10. Subconsas

Por último, mas não menos importante, temos a subconsulta que também é conhecida como uma consulta interna. É aninhado dentro de uma consulta maior que pode ocorrer dentro da seleção, de ou onde a cláusula.

Uma subconsência não se limita a essas cláusulas. Também pode ocorrer em outras cláusulas, como excluir, inserir ou atualizar.

Outra característica importante da subconsulta é que você pode usar os operadores lógicos como>, <, or =. A subquery is also executed first before its parent query.

Por exemplo:

Saída:

Conclusão

Neste artigo, analisamos as importantes consultas SQL para cientistas de dados. Essas consultas são muito comuns e podem ser usadas por profissionais como engenheiros de dados, analistas de dados, etc. A melhor maneira de aprender todas essas consultas é criar seu próprio banco de dados e depois praticar o máximo que puder. Com este guia como base, agora você pode aprender sobre consultas mais avançadas para ciência de dados.