Pandas DataFrame do CSV

Pandas DataFrame do CSV
Um DataFrame é uma estrutura de dados bidimensional no Python que é acessado pelo módulo Pandas que armazena o conteúdo em um formato tabular. Em outras palavras, usando colunas e linhas. Cada coluna em um quadro de dados pode conter um tipo variado de item.

Arquivos CSV ou “Valores Seguidos por Comba” são os valores separados por vírgulas e podem ser vistos de maneira semelhante a um arquivo do Excel. "Pandas" é o pacote de ciência de dados mais essencial em Python. Ao analisar os dados, devemos lidar com grandes conjuntos de dados, que normalmente estão em formato CSV. Existem várias abordagens para usar os arquivos CSV para criar um quadro de dados de pandas. A técnica que escolhemos explicar e implementar neste artigo é o método Pandas "read_csv ()". Para ler e processar os arquivos CSV, o método "Leia CSV ()" dos pandas é essencial.

Veremos sua demonstração prática através do exemplo explicado e executado no seguinte:

Exemplo: Utilizando o método Pandas "read_csv ()" para criar um DataFrame a partir do CSV

Nesta ilustração, veremos como podemos criar um quadro de dados a partir de um arquivo CSV, utilizando os pandas “PD.read_csv () ”método. Vamos continuar implementando este conceito praticamente.

Para cada linguagem de programação com a qual você seleciona trabalhar de acordo com os requisitos, você precisa encontrar um software ou uma ferramenta para montar esse idioma em. Quando você começa a procurar, você encontrará várias opções. Em nosso artigo, a linguagem de programação utilizada é "Python". Precisamos obter a ferramenta ou software que montaria o idioma e é encontrado compatível com nosso sistema. De várias opções, selecionamos a ferramenta "Spyder". Precisamos baixá -lo no site oficial de "Spyder".

Quando o download estiver concluído, lançamos o assistente de instalação. Depois que a instalação estiver concluída, você pode acessar a ferramenta simplesmente escrevendo seu nome na barra de pesquisa do laptop. Clicar nele abre a interface da ferramenta "Spyder". Aqui, estamos todos prontos para começar com nossa demonstração prática.

Na interface da ferramenta "Spyder", clique no botão "Novo arquivo" ou pressione "Ctrl+N" para abrir um novo arquivo. Este arquivo está aberto e você pode ver que o nome do arquivo tem um “.Py ”extensão. Esta extensão refere -se ao arquivo "python". Estamos todos prontos para começar a escrever o código. Agora, começando com o código, o primeiro e principal requisito ao escrever um código é importar suas bibliotecas relevantes cujos recursos você deseja acessar. No nosso caso, a ilustração é baseada na implementação dos recursos "pandas". Então, primeiro importamos a biblioteca usando a linha de código “Importar pandas como PD”. Este "PD" é uma forma curta para os pandas, o que significa que agora podemos carregar os métodos de pandas usando o "PD".

Agora, terminamos de importar a biblioteca de pandas necessária. A próxima tarefa é aprender como podemos criar um DataFrame usando o arquivo CSV. Aqui, você tem duas opções: você precisa criar seu arquivo CSV no Microsoft Excel ou no Google Spreadsheets ou qualquer ferramenta relevante com o “.Extensão CSV ”se você precisar executar algumas operações no Python ou pode baixar um exemplo de arquivo CSV da Internet para fins de aprendizado. Por outro lado, baixamos um exemplo de arquivo CSV da Internet para o processo de aprendizado. Invocamos o “PD.Método read_csv () ”que lê o arquivo CSV fornecido. Entre seus parênteses, forneça o nome do arquivo CSV.

Como mencionamos, o “dia da semana.Nome do arquivo csv ”. Uma coisa importante a considerar aqui é que o arquivo CSV que você criou ou baixou deve estar na mesma pasta em que seu “.Os arquivos py ”residem dentro do“.pasta Spyder-Py3 ”. Caso contrário, quando você tenta executar o programa, ele lançará um erro. Quando chamamos o “PD.read_csv (“Dia da semana.Método CSV ”)”, ele lê o conteúdo deste arquivo e cria um DataFrame. Agora, para armazenar esse quadro de dados, criamos um objeto DataFrame "Sample" que mantém a saída gerada a partir do “PD.read_csv () ”método. Por fim, invocamos o método "Print ()" para exibir esse quadro de dados no terminal.

Sendo novo para "Python" e "Spyder", você pode estar pensando em como executar o código que é script anteriormente. Você só precisa pressionar o botão "Run File" na interface "Spyder" ou simplesmente pressionar as teclas "Shift+Enter" para executar o programa. Aqui está o nosso quadro de dados criado a partir do arquivo CSV fornecido.

No quadro de dados fornecido, temos quatro colunas e sete linhas. A primeira coluna é "nome", que armazena os nomes dos dias da semana como "Segunda -feira", "Terça", "quarta -feira", "Quinta. A segunda coluna “Abreviação” armazena os termos curtos para os dados como “Mon.", "Ter.", "Qua.", "Qui.", "Sex."," Sat "e" Sun ". A terceira e a quarta colunas são "numéricas" e "numéricas-2". Eles armazenam os números de "0" a "7". Ambos estão segurando valores numéricos para os dias da semana.

Pode haver uma situação em que você só deseja criar um quadro de dados a partir das colunas selecionadas do arquivo CSV. Isso pode ser feito usando o mesmo “PD.Função read_csv () ”apenas adicionando um parâmetro“ usecol ”. Este parâmetro pega o nome das colunas que você deseja recuperar do arquivo CSV para o DataFrame. Como já vimos, as colunas do nosso quadro de dados que são importadas do arquivo CSV estão usando a coluna "Nome" e a coluna "numérico" a ser utilizada no arquivo CSV para criar um quadro de dados. Em seguida, invocamos o método "print ()" para exibir as colunas selecionadas no DataFrame.

A execução deste código nos produz o quadro de dados de saída com apenas duas colunas do arquivo CSV. O DataFrame é mostrado na imagem a seguir:

Além de criar um quadro de dados usando as colunas selecionadas do arquivo CSV fornecido, você também pode fazer algumas outras operações. Pode haver um arquivo CSV contendo dados grandes e nem tudo isso é necessariamente necessário para ser exibido para o seu quadro de dados, porque um grande dados desnecessário às vezes cria uma bagunça. Então, muitas vezes tentamos evitá -lo. Podemos fazer isso pulando as linhas irrelevantes do quadro de dados. Precisamos adicionar um parâmetro "Skiprows" e especificar os números de linha que você deseja excluir. Especificamos os números da linha “[1, 3, 5]” aqui. O método "print ()" é chamado para mostrar o novo DataFrame.

Aqui na imagem de saída, você pode observar que o quadro de dados criado a partir do arquivo CSV não contém as linhas "1", "3" e "5".

Também podemos alterar o nome da coluna do arquivo CSV de acordo com nossos requisitos para o DataFrame quando chamamos de “PD.Função read_csv () ”. Para concluir esta operação, devemos passar uma lista de seqüências de caracteres para o “PD.READ_CSV () ”Parâmetro“ Nomes ”da função. Essas cordas de personagem servem como os nomes das novas colunas. Além disso, parece lógico excluir a primeira linha do conjunto de dados de entrada porque contém o título original do arquivo CSV. Fornecemos os nomes para as colunas como "nomes = ['c1', 'c2', 'c3', 'c4']". Finalmente, exibimos o quadro de dados com novos nomes de colunas.

Isso nos leva a seguinte saída de dados de saída:

Conclusão

DataFrames são os blocos mais utilizados e importantes dos pandas Python. Existem várias maneiras de criar um quadro de dados em pandas. Dos quais, discutimos sobre como criar um DataFrame a partir de um arquivo CSV neste artigo. Usamos um método Pandas "read_csv ()" para ler o arquivo CSV fornecido e depois criar um quadro de dados a partir dele. Através da implementação prática dos códigos de exemplo executados em "Spyder", elaboramos a utilização desta função. Também explicamos e implementamos os diferentes parâmetros úteis fornecidos por este método para alcançar o resultado desejado. Prevemos que nosso esforço para facilitar o aprendizado em módulos de pandas realmente o ajudará em sua construção de habilidades em Python.