Selecione várias colunas em pandas

Selecione várias colunas em pandas

Discutiremos os pandas em Python, uma biblioteca de código aberto que fornece estruturas de dados de alto desempenho e ferramentas de análise de dados que estão prontas para usar. Também aprenderemos sobre o DataFrame, as vantagens dos pandas e como você pode usar os pandas para selecionar várias colunas de um DataFrame . Vamos começar!

O que é pandas em python?

Pandas é uma biblioteca de código aberto do Python. Ele fornece estruturas e ferramentas eficientes para análise de dados que estão prontos para usar. Pandas é um módulo Python que opera no topo de Numpy e é amplamente usado para ciência e análise de dados. Numpy é outro conjunto de estruturas de dados de baixo nível que podem lidar com matrizes multidimensionais e uma variedade de operações de matriz matemática. Os pandas têm uma interface de usuário mais avançada. Ele também possui capacidade robusta de série temporal e alinhamento eficiente de dados tabulares. A estrutura de dados primária de pandas é o quadro de dados. Uma estrutura de dados 2-D nos permite armazenar e modificar dados tabulares. Os pandas fornecem qualquer funcionalidade para o quadro de dados, como manipulação de dados, concatenação, mesclagem, agrupamento, etc.

O que é um DataFrame?

A estrutura de dados mais essencial e extensivamente usada é o quadro de dados. É um método comum de armazenamento de dados. DataFrame armazena dados em linhas e colunas, assim como uma tabela SQL ou um banco de dados de planilha.

Vantagens dos pandas

Muitos usuários desejam que o SQL tenha incluído recursos como a geração de números aleatórios gaussianos ou quantis porque lutam para incorporar uma noção processual em uma consulta SQL. Os usuários podem dizer: "Se eu pudesse escrever isso no Python e voltar para o SQL rapidamente", e os pandas fornecem um tipo de dados tabular com interfaces bem projetadas que lhes permitem fazer exatamente isso. Existem opções mais detalhadas, como a utilização de uma linguagem processual específica, como o PLSQL do Oracle ou o Postgres 'PLPGSQL ou uma interface de banco de dados de baixo nível. Os pandas têm uma interface de leitura SQL de uma linha (PD.Leia SQL) e uma interface de gravação SQL de uma linha (PD.para SQL), comparável aos quadros de dados R.

Outra vantagem significativa é que as bibliotecas de gráficos como o SeaBorn podem tratar as colunas do quadro de dados como atributos de gráfico de alto nível. Portanto, os pandas fornecem uma maneira razoável de gerenciar os dados tabulares em Python e algumas APIs maravilhosas de armazenamento e gráfico.

Opção 1: Usando o índice básico de chave

1
2
3
4
5
6
7
8
9
10
importar pandas como PD
dados = 'nome': ['a', 'b', 'c', 'd'],
'Idade': [27, 24, 22, 32]
df = pd.DataFrame (dados)
df [['nome', 'idade']]

Saída:

1
2
3
4
5
6
7
8
9
Nome idade
0 a 27
1 b 24
2 C 22
3 D 32

Opção 2: Usando .loc []

1
2
3
4
5
6
7
8
9
10
11
12
13
14
importar pandas como PD
dados = 'fruta': ['maçã', 'banana', 'uvas', 'laranja'],
'Preço': [160, 100, 60, 80]
df = pd.DataFrame (dados)
df.loc [0: 2, ['fruta', 'preço']]

Saída:

1
2
3
4
5
6
7
8
9
Preço da fruta
0 Apple 160
1 banana 100
2 uvas 60
3 laranja 80

Opção 3: Usando .iloc []

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
importar pandas como PD
dados = 'cachorro': ['a', 'b', 'c', 'd'],
'Idade': [2, 4, 3, 1]
df = pd.DataFrame (dados)
df.ILOC [:, 0: 2]

Saída:

1
2
3
4
5
6
7
8
9
Age do cachorro
0 a 2
1 b 4
2 c 3
3 d 1

Opções 4: Usando .ix []

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
importar pandas como PD
dados = 'nome': ['a', 'b', 'c', 'd'],
'Número do rolo': [21, 25, 19, 49]
df = pd.DataFrame (dados)
Imprimir (df.ix [:, 0: 2])

Saída:

1
2
3
4
5
6
7
8
9
Número do número do rolo
0 a 21
1 b 25
2 C 19
3 D 49

Conclusão

Discutimos sobre pandas em Python, o DataFrame, as vantagens dos pandas e como usar os pandas para selecionar várias colunas de um DataFrame. Existem quatro opções que discutimos na seleção de várias colunas: usando a indexação básica de chave, “.ix ",".loc "e".ILOC ”, respectivamente.