Um banco de dados é uma coleção de dados armazenados em um sistema de computador. O SQL é uma das linguagem de programação mais universal que pode executar milhares de funções, incluindo leitura, escrita e manipulação de dados.
É a linguagem de programação padrão para o gerenciamento de bancos de dados relacionais e é usada por cientistas da computação, analistas de dados e cientistas de dados em todo o mundo.
Neste guia, analisaremos as declarações ou consultas SQL que são usadas extensivamente na ciência de dados.
Este guia usa o software PostGresql para executar as consultas. Você pode baixá -lo no site oficial clicando aqui.
Com isso dito, vamos começar!1
1. Selecionando todas as colunas
A instrução SELECT é uma das consultas SQL mais fundamentais. Esta declaração ajuda você a selecionar algumas ou todas as colunas do banco de dados. Você estará usando esta função em seus projetos de ciência de dados.
Para selecionar todas as colunas, use '*' como mostrado no exemplo a seguir:
"Produto" é uma tabela que é consiste em 3 colunas. Depois de executar a consulta anterior, podemos olhar para as colunas presentes dentro da tabela de produtos.
2. Da cláusula
Da cláusula vem depois de selecionar e ajuda a identificar onde a coluna está localizada na tabela pelo nome.
Ao especificar várias tabelas, use vírgulas e espaço entre os nomes de tabela. Isso é mostrado no exemplo a seguir:
A saída é mais específica com apenas uma coluna. Isso é mostrado no seguinte:
3. Onde cláusula
A próxima declaração depois é onde. Isso nos ajuda a filtrar os dados do banco de dados com base em determinadas condições.
Saída:
4. Grupo por declaração
Esta cláusula é usada para selecionar e agrupar as linhas que têm os mesmos valores.
Na consulta SQL fornecida, agruparemos duas linhas onde o Product_price é igual a 6.
A saída terá uma nova coluna chamada contagem. É seguido pela coluna product_name, como mostrado no seguinte:
5. Tendo declaração
Funções de agregação como soma, avg, max, min, etc. não pode ser usado dentro da cláusula onde. Para usá -los, você precisa usar a declaração. Isso é demonstrado com a ajuda do seguinte código:
Saída:
6. Ordem por declaração
A partir do nome, a ordem por comando é usada para listar os registros em ordem ascendente ou decrescente. Para ascender, use a ordem sozinha ou adicione a palavra -chave "ASC" ao longo dela. Da mesma forma, para classificar os valores em ordem decrescente, use a palavra -chave "desc" junto com a ordem por.
Para ordem descendente:
Saída:
Da mesma forma, para ordem crescente:
Saída:
7. Declaração limite
O limite é uma instrução SQL importante que ajuda você a especificar o número de registros para retornar do banco de dados. Por exemplo, para retornar apenas duas linhas do nosso banco de dados, use o comando LIMIT da seguinte forma:
Saída:
8. Funções de dados predefinidas
As funções predefinidas são muito importantes no SQL, pois ajudam os cientistas de dados a economizar tempo. Essas funções também são chamadas de funções agregadas que funcionam em um conjunto de linhas em vez de uma única linha e retornam um único valor. Existem muitas funções agregadas diferentes. Alguns importantes estão listados no seguinte:
Contagem (*) -> retorna o número de linhas.
Min () -> encontra o valor mínimo na coluna.
Max () -> encontra o valor máximo na coluna.
SUM () -> A soma de todos os valores dentro do nome da coluna.
Qual é o preço máximo em nossa tabela de dados?
Saída:
9. Interno, esquerda e direita se junta
Existem muitos tipos de junções, mas os três principais são discutidos aqui.
A junção interna é a junção mais simples e comum usada para criar uma nova tabela que possui linhas correspondentes nas colunas esquerda e direita.
Saída:
A junção esquerda retorna todas as linhas na coluna esquerda e as linhas correspondentes na coluna direita.
Saída:
Aqui, ingressamos na coluna Product_profit da Tabela2 com a coluna Product_name da Tabela 1.
A junção certa é o oposto da junção esquerda. Ele retorna todas as linhas presentes na coluna direita e nas linhas correspondentes na coluna esquerda.
10. Subconsas
Por último, mas não menos importante, temos a subconsulta que também é conhecida como uma consulta interna. É aninhado dentro de uma consulta maior que pode ocorrer dentro da seleção, de ou onde a cláusula.
Uma subconsência não se limita a essas cláusulas. Também pode ocorrer em outras cláusulas, como excluir, inserir ou atualizar.
Outra característica importante da subconsulta é que você pode usar os operadores lógicos como>, <, or =. A subquery is also executed first before its parent query.
Por exemplo:
Saída:
Conclusão
Neste artigo, analisamos as importantes consultas SQL para cientistas de dados. Essas consultas são muito comuns e podem ser usadas por profissionais como engenheiros de dados, analistas de dados, etc. A melhor maneira de aprender todas essas consultas é criar seu próprio banco de dados e depois praticar o máximo que puder. Com este guia como base, agora você pode aprender sobre consultas mais avançadas para ciência de dados.