Os pandas enchem nan com 0

Os pandas enchem nan com 0

A ciência de dados normalmente envolve dados ausentes. A linha inteira pode ser descartada ou um valor pode ser adicionado à combinação de coluna de linha. A queda da linha/coluna seria absurda porque elimina uma certa métrica para cada linha. Nan, que significa "não um número", é uma das maneiras típicas de mostrar um valor que está faltando em um conjunto de dados. Para obter os resultados pretendidos, o manuseio da NAN é muito importante. Vamos descobrir como alterar os valores da NAN em uma linha ou coluna de um quadro de dados de pandas para 0.

Método 1: Usando Fillna ()

Os valores de Na/Nan são preenchidos com a abordagem fornecida usando a função "Fillna ()". Pode ser utilizado considerando a seguinte sintaxe:

Se você deseja preencher os valores da NAN para uma única coluna, a sintaxe é a seguinte:

Pandas.Dataframe_obj ['coluna'].Fillna (0)


Se você deseja preencher os valores da NAN em todo o DataFrame, a sintaxe é a seguinte:

Pandas.Dataframe_obj.Fillna (0)


Exemplo 1: coluna única

Vamos criar um quadro de dados chamado "documentos" com duas colunas que incluem alguns valores de nan. Nós os criamos usando Numpy. Agora, vamos preencher os valores de nan com 0 nas duas colunas, separadamente.

Importar pandas
importar numpy
# Considere o DataFrame
documentos = pandas.Dataframe ('color': ["vermelho", "azul", numpy.Nan, Numpy.Nan, Numpy.nan],
'Tamanho': [Numpy.Nan, 45,60,78, Numpy.nan])
Imprimir (documentos, "\ n")
# Preencha a nan com 0 na coluna de tamanho.
Impressão (documentos ['tamanho'].Fillna (0), "\ n")
# Preencha a nan com 0 na coluna de cores.
Imprimir (documentos ['cor'].Fillna (0))


Saída:

Tamanho de cor
0 Nan vermelho
1 azul 45.0
2 Nan ​​60.0
3 Nan 78.0
4 Nan Nan
0 0.0
1 45.0
2 60.0
3 78.0
4 0.0
Nome: Tamanho, Dtype: Float64
0 vermelho
1 azul
2 0
3 0
4 0
Nome: cor, dtype: objeto


Explicação:

Primeiro, preenchemos os valores da NAN com 0 na coluna "tamanho". Em seguida, preenchemos os valores da NAN com 0 na coluna "cor".

Exemplo 2: várias colunas

Vamos preencher os valores da NAN com 0 em todo o DataFrame.

Importar pandas
importar numpy
# Considere o DataFrame
documentos = pandas.Dataframe ('color': ["vermelho", "azul", numpy.Nan, Numpy.Nan, Numpy.nan],
'Tamanho': [Numpy.Nan, 45,60,78, Numpy.nan])
# Preencha a nan com 0 em todo o quadro
Imprimir (documentos.Fillna (0))


Saída:

Tamanho de cor
0 vermelho 0.0
1 azul 45.0
2 0 60.0
3 0 78.0
4 0 0.0


Explicação:

Primeiro, preenchemos os valores da NAN com 0 em todo o DataFrame. Agora, não há valores de nan no quadro de dados de "documentos".

Método 2: Usando Substituir ()

Para substituir uma única coluna de valores de NAN, a sintaxe fornecida é a seguinte:

Precisamos passar os valores da NAN que devem ser substituídos por 0 como o primeiro parâmetro e 0 como um segundo parâmetro que substitui os valores da NAN:

Pandas.Dataframe_obj ['coluna'].Substitua (Numpy.nan, 0)


Considerando que, para substituir todos os valores de NAN do quadro de dados, usamos a seguinte sintaxe:

Pandas.Dataframe_obj.Substitua (Numpy.nan, 0)


Exemplo 1: coluna única

Vamos criar um quadro de dados chamado "Ordens" com três colunas que incluem alguns valores de nan. Nós os criamos usando Numpy. Agora, vamos substituir os valores da NAN por 0 nas colunas "Preço" e "Produto", separadamente.

Importar pandas
importar numpy
# Considere o DataFrame
Ordens = pandas.DataFrame ('Product': ["One", "Two", Numpy.Nan, Numpy.Nan, Numpy.nan],
'Preço': [Numpy.Nan, 45,60,78, Numpy.nan],
'ID': [1,2,3,4,5])
Imprimir (pedidos, "\ n")
# Substitua a nan por 0 na coluna de preços.
Imprimir (pedidos ['preço'].Substitua (Numpy.nan, 0), "\ n")
# Substitua a nan por 0 na coluna do produto.
Imprimir (pedidos ['Produto'].Substitua (Numpy.nan, 0))


Saída:

ID do preço do produto
0 um nan 1
1 dois 45.0 2
2 Nan ​​60.0 3
3 Nan 78.0 4
4 Nan Nan 5
0 0.0
1 45.0
2 60.0
3 78.0
4 0.0
Nome: Preço, Dtype: Float64
0 um
1 dois
2 0
3 0
4 0
Nome: Produto, Dtype: Objeto


Explicação:

Existem três valores na coluna "Preço" e dois valores na coluna "Produto". Primeiro, substituímos os valores da NAN por 0 na coluna "Price". Em seguida, substituímos os valores da NAN por 0 na coluna "Produto".

Exemplo 2: várias colunas

Vamos criar um quadro de dados chamado "Ordens" com três colunas que incluem alguns valores de nan. Nós os criamos usando Numpy. Agora, vamos substituir os valores da NAN por 0 nas colunas "Preço" e "Produto", separadamente.

Importar pandas
importar numpy
# Considere o DataFrame
documentos = pandas.Dataframe ('color': ["vermelho", "azul", numpy.Nan, Numpy.Nan, Numpy.nan],
'Tamanho': [Numpy.Nan, 45,60,78, Numpy.nan])
# Substitua a nan por 0 em todo o quadro
Imprimir (documentos.Substitua (Numpy.nan, 0), "\ n")


Saída:

Tamanho de cor
0 vermelho 0.0
1 azul 45.0
2 0 60.0
3 0 78.0
4 0 0.0


Existem cinco valores de nan no quadro de dados de "ordens". Depois disso, substituímos os valores da nan por 0.

Conclusão

Lidar com as entradas ausentes em um quadro de dados é um requisito fundamental e necessário para reduzir a complexidade e lidar com os dados desafiadoramente no processo de análise de dados. Pandas nos oferece algumas opções para lidar com este problema. Trouxemos duas estratégias úteis neste guia.