Pandas Read_CSV multiprocessamento

Pandas Read_CSV multiprocessamento

O multiprocessamento é uma técnica de usar vários processadores ou núcleos para executar tarefas em paralelo. Em Python, o multiprocessamento é implementado através do módulo multiprocessamento. Ele autoriza o usuário a executar várias tarefas simultaneamente, utilizando assim todo o poder da CPU da máquina.

Neste guia Python, apresentaremos um guia detalhado sobre o “Pandas.read_csv ()”Função com um módulo multiprocessante. Os seguintes tópicos serão abordados:

    • Função read_csv () em python
    • Lendo CSV usando “Pandas.read_csv ()”Função
    • Lendo CSV usando “Pandas.read_csv ()”Com multiplocessamento

“Pandas.Função read_csv () ”

O "Pandas.read_csv ()”É uma função no módulo Pandas do Python que lê/pega um arquivo CSV e recupera um objeto DataFrame contendo os dados do CSV.

Sintaxe

Pd.read_csv (filepath_or_buffer, sep = ',', header = 'infer', index_col = nenhum, usecols = nenhum, mecanismo = nenhum, skiprows = nenhum, nrows = nenhum)


Exemplo 1: Lendo o CSV usando “pandas.Função read_csv () ”

No exemplo abaixo, os “pandas.A função read_csv () ”é usada para ler os dados do CSV:


Código

Importar pandas
df = pandas.read_csv ('exemplo.CSV ')
Impressão (DF)


No trecho de código acima:

    • O módulo chamado “Pandas”É importado.
    • O "Pd.read_csv ()”A função é usada para ler o arquivo CSV fornecido.
    • O "imprimir()”A função é utilizada para exibir/mostrar os dados do CSV.

Saída


Como observado, o conteúdo do arquivo CSV foi exibido.

Exemplo 2: Lendo o CSV usando “pandas.read_csv () ”com multiprocessamento

O código a seguir utiliza o “Pd.read_csv ()”Função para ler vários arquivos CSV em paralelo usando a biblioteca multiprocessante no Python:

Importar pandas
importar multiprocessamento
se __name__ == '__main__':
Pool = multiprocessamento.Piscina()
arquivos = ['Exemplo.CSV ',' Exemplo1.CSV ',' Exemplo2.CSV ']
dataframes = pool.mapa (pandas.read_csv, arquivos)
Para DF em DataFrames:
Impressão (DF)


De acordo com o código acima:

    • Os módulos chamados “Pandas" e "multiprocessamento”Os módulos são importados.
    • O "__nome__" e "__principal__”Os atributos são usados ​​com os“se”Condição para garantir que o código dentro dele seja executado diretamente do script, em vez de ser importado.
    • Dentro da condição, o “multiprocessamento.Piscina()”É usado para criar um objeto de pool multiprocessante usando o número padrão de processos disponíveis no sistema.
    • A lista de nomes de arquivos para os arquivos CSV a serem lidos é inicializada e armazenada em uma variável chamada “arquivos”.
    • O "piscina.mapa()”O método é usado para aplicar o“Pd.read_csv”Função para cada arquivo em paralelo. Isso significa que cada arquivo é lido simultaneamente por um processo separado, que pode acelerar o tempo geral de processamento.
    • Finalmente, o "para”O loop é usado para iterar através de cada quadro de dados.

Saída


Nesse resultado, o “PD.A função read_csv () ”é usada com multiprocessamento para ler arquivos CSV.

Conclusão

Para melhorar a velocidade de carregamento de dados, incluindo seus benefícios e limitações, o “Pd.read_csv ()”A função é usada com o módulo multiprocessante. O modelo de multiprocessamento oferece uma maneira de acelerar o carregamento de dados, utilizando vários núcleos de CPU para carregar os dados em paralelo. Este tutorial do Python apresentou um guia detalhado sobre o multiprocessamento do Python Read_CSV.