Ao trabalhar com um conjunto de dados e executar o pré -processamento necessário, os dados pré -processados devem ser salvos em um formato de dados como CSV, Excel ou outro. Em aplicativos baseados em dados, o CSV (valores de vírgula separado) é freqüentemente usado para comunicação de dados. Normalmente, armazenamos os dados de aplicativos da Web em um DataFrame, Array, Lista, Tupla, Dicionário, etc. Os clientes podem exigir que os dados sejam exportados como um arquivo CSV. Os dados são armazenados em arquivos CSV como uma sequência de dados. Podemos usar Python Pandas para escrever dados em um arquivo CSV, como em outras linguagens de programação.
O que é um Dataframe de Pandas?
Em Python, o módulo Pandas inclui uma função “Pandas.Dataframe () ”para criar um DataFrame. Semelhante a uma planilha, um DataFrame é uma estrutura de dados que organiza dados em uma tabela 2D de colunas e linhas. Devido à sua adaptabilidade e simplicidade no armazenamento e manipulação de dados, os quadros de dados estão entre as estruturas de dados mais populares e eficazes na análise de dados modernos.
Sintaxe:
Pandas.DataFrame (dados, índice, colunas, dtype, cópia)
Como exportar um DataFrame para um CSV em Python?
O método to_csv () em Python pandas pode converter um DataFrame em um arquivo CSV. Podemos escrever a saída em um arquivo se um parâmetro/argumento de arquivo for fornecido. Caso contrário, uma sequência CSV será devolvida. Embora a função to_csv () tenha muitos atributos, apenas mencionamos os que são mais frequentemente usados aqui.
Sintaxe:
quadro de dados.to_csv (caminho, set, Na_rep, float_format, colunas, cabeçalho, índice, modo, compressão)
Onde,
caminho: Refere. Em geral, especifica o caminho/localização de um arquivo ou objeto. Nenhum por padrão. Quando nenhum é fornecido, um valor de string é retornado.
SEP: É um valor de string que tem um comprimento de 1. A vírgula é o seu valor padrão (,).
Na_rep: Um valor de dados da string que simboliza ou representa valores ausentes ou nulos. O valor padrão é a sequência vazia.
float_format: Ele contém um valor de sequência para formatar ou estruturar uma série de números de ponto flutuante.
colunas: É um parâmetro opcional e refere -se a uma série que especifica as colunas que devem estar presentes na saída CSV.
cabeçalho: Uma coleção de cordas ou um valor booleano. Se definido como falso. Os nomes das colunas não serão escritos na saída. Verdadeiro é o seu valor padrão.
Índice: Se definido como true, os dados do CSV incluem o índice. Caso contrário, o CSV de saída não possui o valor do índice.
Modo: No modo de escrita, refere -se a um valor de string. W é o seu valor padrão.
Compressão: Um valor de string que comprime o modo usando uma das seguintes opções: inferir, gzip, xz, bz2, zip ou nenhum. Se "inferir" e "caminho" são parecidos com o caminho, ele identifica a compressão das extensões de arquivo ".gz ",".bz2 "," zip ", ou" xz ". Caso contrário, nenhuma compressão ocorre.
Agora criaremos um quadro de dados de pandas que podemos usar para exportar os dados para o CSV nos exemplos deste tutorial.
Criando uma amostra de dados de dados
Para criar nosso quadro de dados, primeiro importaremos o módulo necessário, eu.e., Pandas. Depois de importar o módulo, a função DataFrame () criará nosso quadro de dados.
Criamos nosso quadro de dados passando um ditado de python dentro do PD.Função DataFrame (). Nosso DataFrame consiste em três colunas (nome, idade e marcas).
Agora, vamos aprender a exportar um quadro de dados para um arquivo CSV.
Exportando dataframe para csv sem índice
Quando você usa o DF.Método to_csv () para exportar um DataFrame de pandas para um arquivo CSV, um índice para o DataFrame é automaticamente incluído. Definir índice = false como true se você não quiser ou exigir incluir um índice.
Arquivo de saída:
Quando o índice não faz sentido, isso pode ser útil. Mas, se o índice armazenar dados importantes ou significativos, como dados de séries temporais, você não deve removê -los. Verdadeiro é o valor padrão para o parâmetro de índice. Como resultado, você pode simplesmente deixar o parâmetro em paz se quiser que o índice seja incluído
Exportando o quadro de dados para CSV com colunas específicas
Antes de exportar, você pode estar ciente do tamanho de seus dados quando os exporta. Limitar as colunas que você exporta é um método para reduzir o tamanho do arquivo CSV gerado. Usando o parâmetro de colunas, podemos especificar uma lista contendo os nomes das colunas que queremos incluir em nosso arquivo de exportação. A exportação excluirá quaisquer colunas que não estejam presentes na lista.
Arquivo de saída:
Especificamos o parâmetro da coluna com uma lista contendo nomes de colunas "nome" e "marcas", então apenas essas duas colunas foram exportadas para o nosso arquivo CSV.
Exportando o quadro de dados para o CSV e alterando o separador
Podemos delimitar o arquivo CSV por outros caracteres que não uma vírgula, embora vírgulas sejam o personagem que lhes dê o nome (arquivos de valor separados por vírgula). O valor da guia, por exemplo, é um separador típico e é representado \ t. Nos pandas, podemos mudar nosso separador usando o argumento do SEP.
Arquivo de saída:
Exportando o quadro de dados para o CSV e lidando com valores ausentes/nenhum
As informações sobre dados ausentes não estão incluídas por padrão nos arquivos CSV. Uma célula vazia será gerada quando os dados ausentes forem exportados para o CSV. O argumento Na_rep permite exibir um valor alternativo, como nulo ou n/a, no lugar de todos os valores ausentes. Isso leva qualquer tipo de string como entrada, mas o padrão é uma string vazia. Para isso, usaremos outro quadro de dados contendo alguns valores de dados ausentes.
Vamos definir a string "nula" como o valor do parâmetro Na_rep.
Arquivo de saída:
Exportando o quadro de dados para CSV sem cabeçalho
Na ciência de dados, um conjunto de dados pode exigir dados de exportação de um quadro de dados sem um cabeçalho em algum momento. Geralmente, esse é o caso ao exportar enormes conjuntos de dados que precisam ser unidos mais tarde. Um quadro de dados pode ser facilmente convertido em CSV sem o cabeçalho. Para conseguir isso, o argumento do cabeçalho pode ser usado. É verdade por padrão, indicando que o cabeçalho será incluído.
Arquivo de saída:
Compressionando dados ao exportar DataFrame para CSV
Pode ser útil comprimir grandes conjuntos de dados ao trabalhar com os destinados ao armazenamento de longo prazo, especialmente ao salvá-los em formato CSV. O tamanho do arquivo diminui à medida que um conjunto de dados é compactado. No entanto, a exportação de quadro de dados para o processo CSV levará mais tempo. Da mesma forma, levará mais tempo para os pandas transformarem o CSV em um quadro de dados. Como a compressão requer mais tempo do que a exportação simples, leva mais tempo. Vamos ver como podemos comprimir nossos dados usando o argumento da compactação:
Saída:
O arquivo CSV de saída agora está compactado.
Exportando o DataFrame para o arquivo CSV com diferentes codificação
Muitas vezes, você precisará criptografar dados ao trabalhar com dados de string. Se você está lidando com dados codificados ou numéricos, isso é menos frequentemente, mas as strings geralmente precisam de instruções adicionais sobre como elas devem ser interpretadas.
O formato de codificação UTF-8, um dos formatos de codificação mais amplamente utilizados, é o tipo de codificação por padrão. Vamos usar a codificação UTF-16 para exportar o DataFrame para CSV.
Saída:
Conclusão
Neste tutorial, vimos pela primeira vez a introdução de arquivos CSV e Pandas Dataframe. Discutimos como um quadro de dados poderia ser exportado para um CSV em Python. Tentamos explicar como usar os pandas.To_csv () método de maneira eficaz e como podemos usar diferentes argumentos da função to_csv () para modificar como os dados são exportados. Depois de cobrir esta posta.