Discutiremos os pandas em Python, uma biblioteca de código aberto que fornece estruturas de dados de alto desempenho e ferramentas de análise de dados que estão prontas para usar. Também aprenderemos sobre o DataFrame, as vantagens dos pandas e como você pode usar os pandas para selecionar várias colunas de um DataFrame . Vamos começar!
O que é pandas em python?
Pandas é uma biblioteca de código aberto do Python. Ele fornece estruturas e ferramentas eficientes para análise de dados que estão prontos para usar. Pandas é um módulo Python que opera no topo de Numpy e é amplamente usado para ciência e análise de dados. Numpy é outro conjunto de estruturas de dados de baixo nível que podem lidar com matrizes multidimensionais e uma variedade de operações de matriz matemática. Os pandas têm uma interface de usuário mais avançada. Ele também possui capacidade robusta de série temporal e alinhamento eficiente de dados tabulares. A estrutura de dados primária de pandas é o quadro de dados. Uma estrutura de dados 2-D nos permite armazenar e modificar dados tabulares. Os pandas fornecem qualquer funcionalidade para o quadro de dados, como manipulação de dados, concatenação, mesclagem, agrupamento, etc.
O que é um DataFrame?
A estrutura de dados mais essencial e extensivamente usada é o quadro de dados. É um método comum de armazenamento de dados. DataFrame armazena dados em linhas e colunas, assim como uma tabela SQL ou um banco de dados de planilha.
Vantagens dos pandas
Muitos usuários desejam que o SQL tenha incluído recursos como a geração de números aleatórios gaussianos ou quantis porque lutam para incorporar uma noção processual em uma consulta SQL. Os usuários podem dizer: "Se eu pudesse escrever isso no Python e voltar para o SQL rapidamente", e os pandas fornecem um tipo de dados tabular com interfaces bem projetadas que lhes permitem fazer exatamente isso. Existem opções mais detalhadas, como a utilização de uma linguagem processual específica, como o PLSQL do Oracle ou o Postgres 'PLPGSQL ou uma interface de banco de dados de baixo nível. Os pandas têm uma interface de leitura SQL de uma linha (PD.Leia SQL) e uma interface de gravação SQL de uma linha (PD.para SQL), comparável aos quadros de dados R.
Outra vantagem significativa é que as bibliotecas de gráficos como o SeaBorn podem tratar as colunas do quadro de dados como atributos de gráfico de alto nível. Portanto, os pandas fornecem uma maneira razoável de gerenciar os dados tabulares em Python e algumas APIs maravilhosas de armazenamento e gráfico.
Opção 1: Usando o índice básico de chave
1 2 3 4 5 6 7 8 9 10 | importar pandas como PD dados = 'nome': ['a', 'b', 'c', 'd'], 'Idade': [27, 24, 22, 32] df = pd.DataFrame (dados) df [['nome', 'idade']] |
Saída:
1 2 3 4 5 6 7 8 9 | Nome idade 0 a 27 1 b 24 2 C 22 3 D 32 |
Opção 2: Usando .loc []
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | importar pandas como PD dados = 'fruta': ['maçã', 'banana', 'uvas', 'laranja'], 'Preço': [160, 100, 60, 80] df = pd.DataFrame (dados) df.loc [0: 2, ['fruta', 'preço']] |
Saída:
1 2 3 4 5 6 7 8 9 | Preço da fruta 0 Apple 160 1 banana 100 2 uvas 60 3 laranja 80 |
Opção 3: Usando .iloc []
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | importar pandas como PD dados = 'cachorro': ['a', 'b', 'c', 'd'], 'Idade': [2, 4, 3, 1] df = pd.DataFrame (dados) df.ILOC [:, 0: 2] |
Saída:
1 2 3 4 5 6 7 8 9 | Age do cachorro 0 a 2 1 b 4 2 c 3 3 d 1 |
Opções 4: Usando .ix []
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | importar pandas como PD dados = 'nome': ['a', 'b', 'c', 'd'], 'Número do rolo': [21, 25, 19, 49] df = pd.DataFrame (dados) Imprimir (df.ix [:, 0: 2]) |
Saída:
1 2 3 4 5 6 7 8 9 | Número do número do rolo 0 a 21 1 b 25 2 C 19 3 D 49 |
Conclusão
Discutimos sobre pandas em Python, o DataFrame, as vantagens dos pandas e como usar os pandas para selecionar várias colunas de um DataFrame. Existem quatro opções que discutimos na seleção de várias colunas: usando a indexação básica de chave, “.ix ",".loc "e".ILOC ”, respectivamente.