Ao trabalhar com dados de dados, é frequentemente necessário alterar um quadro de dados de pandas para remover colunas irrelevantes ou para otimizar os dados para construção de modelos. Às vezes, certas colunas não serão úteis para sua análise. Você deve entender como remover essas colunas do quadro de dados de pandas fornecidas. As colunas são descartadas dos modelos de aprendizado de máquina quando são irrelevantes ou não melhoram o modelo.
Método Pandas Drop ()
Nos pandas, a manipulação da coluna pode ocorrer de várias maneiras. Por exemplo, usando o “DataFrame.Método Drop ”, colunas especificadas podem ser eliminadas. É o método mais usado para remover várias colunas em pandas. Como o nome indica, esse método foi projetado para simplificar soltar colunas ou linhas múltiplas ou múltiplas. Neste tutorial detalhado, você explorará como soltar colunas únicas ou múltiplas de um quadro de dados de pandas, utilizando seus nomes.
A sintaxe para esta função é fornecida abaixo:
Aqui, "nome da coluna" é o nome da coluna que queremos cair. O "eixo" Especifica qual eixo deve ser removido. O eixo 1 representa colunas, enquanto o eixo 0 representa linhas. O "no lugar" indica que a operação de queda deve ocorrer no mesmo quadro de dados, em vez de gerar uma cópia do quadro de dados após a queda.
Você aprenderá a utilizar este método para soltar colunas pelo nome neste tutorial.
Exemplo # 1: Utilizando pandas “DataFrame.Método Drop () ”para soltar uma única coluna pelo nome
Neste exemplo, realizaremos uma implementação prática desse método para eliminar uma única coluna pelo nome do DataFrame.
Para começar a escrever o script python para a execução deste exemplo, precisamos ter um assembler relevante no qual possamos montar o código. Temos uma variedade de opções, mas a que escolhemos é a ferramenta "Spyder". Você precisa abrir o “spyder -ide.site org ”e baixe a ferramenta“ Spyder ”de acordo com os requisitos do seu sistema operacional. Temos usado o sistema operacional Windows, por isso baixamos a configuração correspondente "Spyder". Em seguida, simplesmente o instalamos e, uma vez concluído o processo de instalação, encontraremos uma interface do usuário da ferramenta. Abrimos um novo arquivo clicando na opção "Novo arquivo" ou você pode até pressionar o "Ctrl+n" para abrir o novo diretório.
Agora, temos que carregar as bibliotecas de pré -requisito necessárias para o script. A biblioteca necessária para a execução deste método é o "pandas".
Nós utilizamos o “PD.DataFrame () ”Método, que é fornecido pela Biblioteca Pandas. Como mencionamos, "PD" é um pseudônimo para os pandas, enquanto o "DataFrame" é a palavra -chave para gerar o quadro de dados. Então, empregamos esse método para construir nosso quadro de dados básico. Este DataFrame possui três colunas "planta", "preço" e "disponibilidade". A coluna "planta" mantém os nomes de diferentes plantas, que são "Morina", "Oleandrond", "Acacia", "Olive", "Hopbush" e "Mango". A coluna “Price” armazena os preços das plantas, que são “500”, “700”, “1300”, “600”, “800” e “1150”. A última coluna, "Disponibilidade", diz se a planta está disponível atualmente ou não como "Y", "N", "Y", "Y", "N" e "Y". Aqui, “y” representa “sim” e “n” representa “não”. O comprimento dos valores em cada coluna do quadro de dados deve ser mantido o mesmo, que é seis neste caso. Agora precisamos de um objeto de quadro de dados para manter o conteúdo nesse quadro de dados nele. Então, criamos um objeto DataFrame "Forest" e demos o resultado gerado ao chamar o "PD.DataFrame () ”Método. Podemos obter o quadro de dados usando o objeto "floresta". Agora, para visualizar esse quadro de dados recém -criado, temos um método python para exibir a saída, que é "print ()". Invocamos o método "print ()" e adicionamos o nome do quadro de dados entre seus parênteses.
Para executar este script Python Pandas, precisamos pressionar a opção "Run File". Como alternativa, você pode pressionar as teclas “Shift+Enter” para executar o programa. Aqui, podemos ver o quadro de dados que acabamos de criar com três colunas e seis linhas sendo exibidas no console da ferramenta Spyder.
Nosso quadro de dados foi construído e agora podemos executar as operações necessárias nele. A tarefa principal será executada, que é lançar uma única coluna pelo nome utilizando o Pandas “DataFrame.Drop () ”Método. Primeiro, temos que escrever o nome do nosso quadro de dados, que é "floresta", então o ".Drop () ”” a função é invocada com isso. Estamos usando o método "Drop ()" com três parâmetros aqui "column_name", "eixo" e o "inplace". O nome da coluna que fornecemos que queremos cair é a coluna "Preço". O "eixo" está definido como "1", o que indica que a queda é feita em termos de coluna.
E o último parâmetro, "Inplace", implica que quaisquer manipulações que fizemos aparecerão no quadro de dados reais, e nenhuma cópia do DataFrame será gerada. A coluna que lançaremos será eliminada diretamente do DataFrame original. Por fim, usamos o método "Print ()" para exibir o quadro de dados original atualizado depois de retirar uma coluna.
O trecho de código anterior, quando executado em Python, nos fornece o quadro de dados original com alguma modificação. Podemos observar que esse quadro de dados tem apenas duas colunas enquanto a inicial tinha três colunas. Por esse motivo, a coluna "Price" foi omitida do DataFrame.
Exemplo # 2: Utilizando pandas “DataFrame.Método Drop () ”para soltar várias colunas pelo nome
Elaboramos a técnica para lançar uma única coluna pelo nome usando o Pandas “DataFrame.Drop () ”Método. Agora iremos explorar soltando várias colunas com a mesma técnica.
Para este exemplo, utilizamos o quadro de dados construído na instância anterior. Como mostramos, o DataFrame "Forest" tem três colunas "planta", "preço" e "disponibilidade". Depois de imprimir o quadro de dados, aplicamos o “DataFrame.drop () ”função. Mencionamos o nome do DataFrame "Forest" com o ".Drop () ”Método.
O título desta ilustração diz que estamos lançando mais de uma coluna aqui. As colunas que escolhemos do quadro de dados para soltar são "preço" e "disponibilidade". Entre os parênteses da “floresta.Função Drop () ”, fornecemos a lista de colunas, defina“ eixo ”como“ 1 ”para colunas e“ inplace ”é definido“ true ”para representar as mudanças no quadro de dados originais. Finalmente, chamamos o método "print ()" para exibir o resultado.
Na imagem de saída, você pode ver que o DataFrame agora é mostrado com apenas uma coluna porque o restante das duas colunas foi descartado.
Conclusão
Largar uma coluna usando seu nome é uma estratégia muito útil e eficaz em Python Pandas. Torna a análise de dados muito mais fácil e livre de complicação. Este artigo ajudará você a entender esse conceito e fornecer as melhores abordagens para alcançar o resultado desejado. Neste escrito, explicamos e implementamos a técnica de eliminar uma única coluna por nome e lançar várias colunas pelo nome. Executamos o exemplo de código python na ferramenta "Spyder". Aprendendo a utilizar o Pandas “DataFrame.o método Drop () ”seria benéfico e útil para seus projetos de análise de dados.