Pandas Selecione coluna por nome

Pandas Selecione coluna por nome
Uma das operações mais comuns ao processar os dados é extrair uma coluna ou colunas de um quadro de dados de pandas. Para recuperar as colunas e linhas, o DataFrame fornece ao identificador de indexação "loc []". Este método seleciona apenas colunas ou linhas por etiquetas/nomes.

A sintaxe para este método é a seguinte:

Neste artigo, você verá sua implementação prática através das diferentes técnicas para selecionar as colunas por nome.

Exemplo 1: Utilizando a propriedade Pandas Loc [] para selecionar uma única coluna pelo nome

Para extrair a coluna única do quadro de dados, usamos a propriedade Pandas "LOC []" nesta ilustração. Vamos obter um guia passo a passo para fazer isso.

De uma ampla gama de ferramentas alternativas, optamos pela ferramenta "Spyder" para executar nossos códigos Python. Depois de lançar a ferramenta, começamos a trabalhar com o script. Chegando ao programa Python, primeiro verificamos os pré -requisitos para obter a execução indisrupção do script. Aqui, como o título declara, "pandas" é a biblioteca necessária para trabalhar com suas funções. Carregamos o kit de ferramentas de pandas em nosso ambiente Python, roteirizando os “Importar pandas como PD”. O "PD" é feito um alias para os pandas a serem usados ​​ao longo deste programa em particular, em vez de "pandas".

Para trabalhar em colunas, precisamos de um quadro de dados que contém as colunas. Os pandas nos permitem construir um quadro de dados empregando seu método muito fácil, que é “PD.Quadro de dados()". Este método tem duas seções: "PD" e "DataFrame". O "PD", como descrito anteriormente, é o pseudônimo de "pandas", o que significa que chamamos algo do módulo pandas. A segunda parte "DataFrame" é a palavra -chave que é usada para criar o quadro de dados. Invocamos o “PD.DataFrame () "Função para gerar um DataFrame. Os nomes das colunas e seus valores podem ser definidos entre os parênteses desta função.

Inicializamos nosso quadro de dados com 6 colunas com os nomes "Mercury", "Venus", "Earth", "Mars", "Jupiter" e "Saturn". Cada coluna é atribuída a um conjunto particular de valores. Para "Mercúrio", temos valores "13", "2", "24", "19", "9", "52" e "65". A coluna "Venus" armazena os valores "32", "15", "3", "18", "39", "31" e "7". Na terceira coluna, temos valores "Terra" "5", "7", "21", "15", "1", "3" e "13". Os valores para os "Marte" são "8", "21", "22", "34", "14", "21" e "2". O "Júpiter" detém os valores que são "11", "1", "35", "62", "5", "15" e "12". A última coluna no DataFrame "Saturno" tem os valores "21", "23", "45", "2", "11", "12" e "9". Cada coluna no DataFrame preserva um comprimento igual de valores. Agora, terminamos a definição da coluna do quadro de dados e seus valores correspondentes.

Os pandas “PD.A função DataFrame () ”cria um DataFrame com os dados fornecidos. Mas não tem espaço para preservá -lo. Para salvar esse quadro de dados em algum lugar, para que possamos utilizá -lo mais tarde, criamos um objeto DataFrame. Este objeto DataFrame é rotulado como "planetas". O “PD.DataFrame () ”Método, quando chamado, cria um DataFrame e o armazena neste objeto DataFrame. Para visualizar o quadro de dados na tela, temos a função do Python "Print ()". Este método exibe o conteúdo de "planetas" no console python quando invocado.

Vimos o quadro de dados de saída depois de atingir a opção "Run File" na ferramenta "Spyder". Nosso quadro de dados com 6 colunas e 7 linhas é exibido no console que pode ser visto na imagem de saída fornecida no seguinte:

Nosso amostra de dados de dados para esta demonstração está pronto para trabalhar e fazer alterações aplicando funções. Devemos extrair uma coluna usando o nome da coluna. Vamos instruí -lo sobre a abordagem para executar isso.

Para selecionar uma única coluna pelo nome, o Pandas Dataframe nos fornece o atributo "loc []". Ele nos permite escolher as colunas ou linhas mencionando seus nomes. Utilizamos o “df. loc [] ”atributo. O nome do DataFrame é fornecido como "planetas". Entre os colchetes, pressionamos o nome da coluna "Terra" depois de deixar o local da fila com ":" Colon. Isso significa que a seleção é feita em termos de coluna. Para armazenar o resultado, inicializamos uma variável "single" que armazena o conteúdo da coluna única mencionada na propriedade "loc []". Exibindo a saída na tela exige a chamada da função "print ()". Passamos a variável "única" para a função "print ()" para mostrar o resultado.

Aqui está o nosso quadro de dados resultante com apenas uma coluna selecionada. A coluna "Terra" é apresentada na tela com seu conteúdo. O nome da coluna, bem como o tipo de dados do valor, é mencionado abaixo da coluna extraída.

Exemplo 2: Utilizando o método pandas loc [] para selecionar as várias colunas por nome

Selecionar uma única coluna em um quadro de dados de pandas é aprendida na instância anterior. Além disso, também podemos extrair mais de uma coluna que utiliza a propriedade do quadro de dados "loc []". Colocamos esse conceito em prática através desta ilustração.

Usamos o DataFrame criado na instância anterior. Este DataFrame possui 6 colunas. Precisamos selecionar várias colunas de nossa escolha. O “df.loc [] ”é invocado. Aqui, o nome de nosso DataFrame é "planetas" que fornecemos com o ".loc [] ”propriedade. Ele especifica que queremos selecionar as linhas ou colunas específicas do DataFrame fornecido. Entre os suportes quadrados da propriedade "loc []", temos duas seleções. O primeiro lugar é selecionar as linhas enquanto a outra é para a seleção das colunas. Nós, para este guia, ignoraremos o primeiro lugar e simplesmente adicionaremos um cólon “:” Porque não precisamos fazer uma seleção em linhas.

No local da coluna, apresentamos um operador subscrito "[]" que chamamos de suportes quadrados também. Neste operador subscrito, escreva o nome das colunas. Selecionamos 3 colunas que são "Mercúrio", "Marte" e "Saturno". A saída desta propriedade é salva na variável "multi". Por fim, empregamos o método "print ()" para mostrar o resultado na tela.

O resultante DataFrame mostra -nos 3 colunas selecionadas usando a propriedade "loc []". As colunas selecionadas aparecem no terminal enquanto o restante é ignorado.

Exemplo 3: Utilizando o método Pandas Loc [] para selecionar uma variedade de colunas pelo nome

Selecionar colunas pressionando seus nomes um por um às vezes se torna uma tarefa agitada quando você precisa extrair um amplo número de colunas. Se você precisar extrair as colunas de uma lista de colunas especificadas até um ponto específico, você pode fazê -lo fornecendo a gama de colunas no atributo "loc []". Vamos ver seu exercício prático.

Empregamos o “df.loc [] ”propriedade. No local da coluna, fornecemos a gama de colunas que precisamos recuperar. O nome da primeira coluna de onde o intervalo é iniciado e o segundo nome da coluna no qual o alcance termina, ambos são separados por um “:” operador de cólon. Aqui, selecionamos a coluna "Venus" para iniciar o intervalo e a coluna "Júpiter" na qual o intervalo termina. Entre esse intervalo, quaisquer que sejam as colunas, o método "loc []" extrai todos eles. Armazenamos o resultado na variável "Nome" e o exibimos usando o método "print ()".

No instantâneo de saída, podemos ver que todas as colunas de "Vênus" a "Júpiter" são exibidas na tela.

Conclusão

Este guia é baseado na seleção das colunas em um quadro de dados de pandas. Pandas Dataframe nos fornece um atributo que é “df.loc [] ”para fazer uma seleção em linhas ou colunas ou mesmo ambos. Trabalhamos em 3 exemplos neste artigo. O primeiro exemplo fornece uma explicação detalhada de selecionar uma única coluna em um DataFrame. O segundo exemplo funcionou na seleção de várias colunas. Enquanto a terceira ilustração é fundada na idéia de selecionar uma variedade de colunas em um DataFrame.