Função de pandas ffill

Função de pandas ffill
Lidar com os dados ausentes é um componente integrante de todas as estratégias de ciência de dados. Maneiras comuns de lidar com os dados ausentes envolvem ignorar os valores ausentes, soltar entradas com registros ausentes e preencher os dados ausentes. Neste tutorial, examinaremos a função Pandas “DataFrame.ffill () ”para preencher dados ausentes.

Método pandas ffill ()

O método pandas ffill () nos permite preencher o valor da nan no quadro de dados. O FFILL significa encaminhar preenchimento, o que significa que os valores nulos são substituídos pelos dados da coluna ou linha anterior.

A sintaxe para usar este método é fornecida aqui:


O "eixo" é o eixo ao longo do qual preencher os valores da nan. Seu valor padrão é 0. Este parâmetro será usado em nossos exemplos aqui.

Com o auxílio dos exemplos de código do programa Python, examinaremos como usar o “ffill ()” para encaminhar valores ausentes em todas as colunas de um quadro de dados de pandas neste artigo.

Exemplo # 1: Utilizando o método ffill () para preencher os valores ao longo das linhas

Nesta ilustração, você verá como preencheremos os valores da NAN em um quadro de dados ao longo do eixo do índice usando o método "ffill ()".

A implementação prática de qualquer programa começa com a seleção de uma ferramenta de execução apropriada. Para este tutorial, escolhemos a ferramenta "Spyder" para colocar em prática o script de Python da amostra. Carregar a biblioteca de pandas em nosso arquivo python nos tornará capazes de empregar todos os recursos fornecidos pela Pandas. "PD" será usado no código onde quer que precisemos usar "pandas" como seu alias.

A segunda parte do código possui duas operações; Para criar um quadro de dados com alguns valores de NAN usando o Pandas “PD.DataFrame () ”Método e, em seguida, preencha esses valores de NAN usando a função Pandas“ ffill () ”. Tomando nossas mãos na primeira operação, que é criar um quadro de dados com alguns valores de nan, invocamos os pandas “PD.DataFrame () ”Método aqui. Este método gerará um quadro de dados com valores especificados ou um arquivo CSV.

Aqui estamos construindo o quadro de dados com dados definidos pelo usuário em vez de importar um arquivo CSV. O quadro de dados é inicializado por quatro colunas com títulos, como mencionado: "verde", "branco", "marrom" e "laranja.”O comprimento de cada coluna que criamos aqui é quatro. Somos obrigados a tornar todas as colunas do mesmo tamanho para um quadro de dados. Nossa primeira coluna de quadro de dados, "Green", contém os valores "7", "1", "nenhum" e "3". A coluna "branca" contém entradas que são "7", "2", "1" e "9". A coluna "Brown" tem valores "2", "6", "8" e "Nenhum", enquanto a coluna "laranja" armazena "Nenhum", "6", "9" e "2".

Para preservar esse quadro de dados, precisamos de um objeto de quadro de dados. Então, criamos com o nome "visual" e chegamos a armazenar o quadro de dados que construímos a partir do “PD.DataFrame () ”Método. Agora, para exibir esse quadro de dados, acabamos de armazená -lo no objeto de quadro de dados "visual", que chamamos de método "print ()" de programação python.


Quando executamos esse script Python, que elaboramos acima, pressionando a opção "Run File", um quadro de dados de quatro colunas é exibido no console. Aqui você pode ver que este DataFrame tem três valores de nan.


Concluímos a primeira operação de gerar o quadro de dados. Agora vamos nos mudar para a outra parte, que é preencher esses valores de nan. Faremos isso utilizando o método Pandas "ffill".

Nós invocamos “DataFrame.ffill () ”para preencher todos os valores de nan em nosso quadro de dados. Fornecemos o nome do nosso quadro de dados que acabamos de criar acima do "visual" com o ".método de preenchimento () ”. Entre os parênteses desta função, um parâmetro "eixo" é utilizado. Nós o definimos como "0", que representa o eixo de linha ou índice. Porque nós usamos o método "preenchimento ()" para preencher os valores da nan ao longo do eixo da linha para esta ilustração. Então, escrevemos tudo isso como “visual.ffill (eixo = 0) ”e depois colocou isso no método“ print () ”para imprimir o quadro de dados com os valores NAN preenchidos ao longo do eixo da linha.


Aqui está o quadro de dados de saída. Cada valor da NAN é preenchido usando o valor correspondente da linha anterior quando o ffill () é executado no índice ou no eixo da linha. Você observou que as entradas na primeira linha ainda são valores de nan porque não há uma linha sobre ela, dos quais valores não-NA se propagam. Todos os outros valores da NAN são substituídos com sucesso copiando os valores de linha correspondentes para ele.

Exemplo # 1: Utilizando o método ffill () para preencher os valores ao longo das colunas

Esta ilustração dirá como preencher os valores da NAN em um quadro de dados ao longo do eixo da coluna, utilizando o método Pandas "Fill ()". Vamos começar a trabalhar nesta técnica.

Lançamos a ferramenta "Spyder" e começamos a escrever o código Python. Primeiro, precisamos obter o pré -requisito para o programa, que está carregando a biblioteca de pandas. Temos que importar esta biblioteca para um arquivo python, porque vamos usar os pandas “PD.Dataframe () "e" dataframe.ffill () ”Métodos nesta ilustração, que só podem ser empregados se tivermos acesso a esta biblioteca.

Temos que gerar um quadro de dados usando pandas “PD.DataFrame () ”Método. O método é chamado e inicializado por quatro colunas, que são "P1", "P2", "P3" e "P4". A primeira coluna aqui, "P1" tem valores de "1", "12", "7", "4" e "Nenhum". Os registros "P2" são "13", "9", "Nenhum", "4" e "3". "P3" tem entradas "nenhuma", "14", "1", "8" e "7". Os valores armazenados em "P4" são "11", "3", "16", "8" e "Nenhum". Armazenamos esse quadro de dados no objeto de quadro de dados "pontuação". Agora, para exibir esse quadro de dados no console, chamamos o método "print ()".


Este snippet de código é executado para visualizar o quadro de dados criado. Aqui, você pode observar que o quadro de dados tem quatro colunas e, em cada coluna, encontramos um valor nan. No geral, temos quatro entradas nulas no quadro de dados.


Para preencher esses valores nulos ao longo do eixo da coluna no quadro de dados, utilizamos o Pandas “DataFrame.ffill () ”método. Invocamos o “DataFrame.função ffill () ”. Aqui o usamos com o parâmetro "eixo" e o definimos como "1", que se refere ao eixo da coluna porque estamos preenchendo os valores nulos ao longo das colunas para esta demonstração. Toda a linha de script está escrita como “pontuação.ffill (eixo = 1) ”e, então, para a necessidade de mostrar esse quadro de dados resultante no console, colocamos essa função entre os aparelhos do método“ print () ”e o invocamos.


Isso nos leva o quadro de dados quebrado abaixo. Como você pode ver, o valor da primeira coluna é NAN, já que não há coluna para preenchê -la com o valor da coluna anterior ao longo do eixo da coluna.

Conclusão:

Trabalhar com quadros de dados e lidar com os valores nulos é uma necessidade central e fundamental nos processos de análise de dados. Neste tutorial, aprendemos que os pandas forneceram “DataFrame.método ffill () ”para preencher os registros da NAN no quadro de dados. Nós o familiarizamos com as duas técnicas para preencher o quadro de dados. Cada estratégia é elaborada com o exemplo praticamente implementado Scripts Python executados usando a ferramenta "Spyder". Você pode usar cada técnica de acordo com suas necessidades.