Pyspark - Pandas DataFrame ISNA, Notna, NotNull

Pyspark - Pandas DataFrame ISNA, Notna, NotNull
“No Python, o Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.

PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.

Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.

Antes disso, você deve instalar o módulo Pyspark.”

Comando

pip install pyspark

Sintaxe para importar

De Pyspark Import pandas

Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.

Sintaxe para criar dados de dados de pandas:

Pyspark.Pandas.Quadro de dados()

Podemos passar um dicionário ou lista de listas com valores.

Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', nenhum, 'lehara', 'kapila', 'hyna'], 'mark1': [90, nenhum, nenhum, 54,67], 'mark2': [100, 67,96,89, nenhum], 'Mark3': [91,92,98,97,87])
Imprimir (Pyspark_pandas)

Saída

Agora, entraremos em nosso tutorial.

As funções ISNA (), Notna () e NotNull () são usadas para verificar se nenhum valores ocorreram no Pyspark Pandas Dataframe. Eles são representados por NAN (não um número); em Python, podemos criá -los usando nenhum.

Vamos vê -los um por um.

Pyspark.Pandas.Quadro de dados.ISNA

ISNA é usado para verificar se o valor é nulo. Se for nulo, ele retornará verdadeiro nesse valor. Caso contrário, ele retorna falso. Não leva parâmetros.

Sintaxe

Pyspark_pandas.ISNA

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Também podemos verificar em colunas específicas.

Sintaxe

Pyspark_pandas.coluna.ISNA

Onde a coluna é o nome da coluna.

Exemplo 1
Neste exemplo, verificaremos os valores da NAN na coluna Mark1 usando ISNA.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', nenhum, 'lehara', 'kapila', 'hyna'], 'mark1': [90, nenhum, nenhum, 54,67], 'mark2': [100, 67,96,89, nenhum], 'Mark3': [91,92,98,97,87])
#CHECK PARA NENHUM VALORES NA COLUN
Imprimir (Pyspark_pandas.Mark1.isna ())

Saída

0 FALSO
1 Verdadeiro
2 Verdadeiro
3 Falso
4 Falso
Nome: Mark1, Dtype: Bool

Podemos ver que na segunda e terceira fileira - está disponível, então nessas posições, a ISNA retornou verdadeira. Em outros casos, retornou falso.

Exemplo 2
Neste exemplo, verificaremos os valores da NAN em todo o Pyspark Pandas Dataframe usando ISNA.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', nenhum, 'lehara', 'kapila', 'hyna'], 'mark1': [90, nenhum, nenhum, 54,67], 'mark2': [100, 67,96,89, nenhum], 'Mark3': [91,92,98,97,87])
#cunct para nenhum valores em todo o DataFrame
Imprimir (Pyspark_pandas.isna ())

Saída

Student_lastName Mark1 Mark2 Mark3
0 false false falso
1 verdadeiro verdadeiro falso
2 false verdadeiro verdadeiro falso
3 Falso Falso Falso
4 false falso verdadeiro falso

Podemos ver que o ISNA retorna verdadeiro onde quer que a nan exista.

Pyspark.Pandas.Quadro de dados.Notna

Notna é usada para verificar se o valor não é nulo. Se for nulo, ele retornará falso nesse valor. Caso contrário, ele retorna verdadeiro. Não leva parâmetros.

Sintaxe

Pyspark_pandas.Notna

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Também podemos verificar em colunas específicas.

Sintaxe

Pyspark_pandas.coluna.Notna

Onde a coluna é o nome da coluna.

Exemplo 1
Neste exemplo, verificaremos os valores da NAN na coluna Mark1 usando Notna.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', nenhum, 'lehara', 'kapila', 'hyna'], 'mark1': [90, nenhum, nenhum, 54,67], 'mark2': [100, 67,96,89, nenhum], 'Mark3': [91,92,98,97,87])
#CHECK PARA NENHUM VALORES NA COLUN
Imprimir (Pyspark_pandas.Mark1.notna ()))

Saída

0 Verdadeiro
1 falso
2 Falso
3 Verdadeiro
4 Verdadeiro
Nome: Mark1, Dtype: Bool

Podemos ver que na segunda e terceira fila - Nan não está disponível; portanto, nessas posições, Notna retornou falsa. Em outros casos, retornou verdadeiro.

Exemplo 2
Neste exemplo, verificaremos os valores da NAN em todo o Pyspark Pandas Dataframe usando ISNA.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', nenhum, 'lehara', 'kapila', 'hyna'], 'mark1': [90, nenhum, nenhum, 54,67], 'mark2': [100, 67,96,89, nenhum], 'Mark3': [91,92,98,97,87])
#cunct para nenhum valores em todo o DataFrame
Imprimir (Pyspark_pandas.notna ()))

Saída

Student_lastName Mark1 Mark2 Mark3
0 Verdadeiro verdadeiro verdadeiro
1 falso false verdadeiro verdadeiro
2 Verdadeiro verdadeiro verdadeiro
3 Verdadeiro verdadeiro verdadeiro
4 Verdadeiro verdadeiro verdadeiro

Podemos ver que Notna retorna falsa onde quer que a nan exista.

Pyspark.Pandas.Quadro de dados.não nulo

NotNull é semelhante a Notna usada para verificar se o valor não é nulo. Se for nulo, ele retornará falso nesse valor. Caso contrário, ele retorna verdadeiro. Não leva parâmetros.

Sintaxe

Pyspark_pandas.não nulo

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Também podemos verificar em colunas específicas.

Sintaxe

Pyspark_pandas.coluna.não nulo

Onde a coluna é o nome da coluna.

Exemplo 1
Neste exemplo, verificaremos os valores da NAN na coluna Mark1 usando NotNull.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', nenhum, 'lehara', 'kapila', 'hyna'], 'mark1': [90, nenhum, nenhum, 54,67], 'mark2': [100, 67,96,89, nenhum], 'Mark3': [91,92,98,97,87])
#CHECK PARA NENHUM VALORES NA COLUN
Imprimir (Pyspark_pandas.Mark1.não nulo())

Saída

0 Verdadeiro
1 falso
2 Falso
3 Verdadeiro
4 Verdadeiro
Nome: Mark1, Dtype: Bool

Podemos ver que na segunda e terceira fila - Nan não está disponível; portanto, nessas posições, NotNull retornou falso. Em outros casos, retornou verdadeiro.

Exemplo 2
Neste exemplo, verificaremos os valores da NAN em todo o Pyspark Pandas Dataframe usando NotNull.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', nenhum, 'lehara', 'kapila', 'hyna'], 'mark1': [90, nenhum, nenhum, 54,67], 'mark2': [100, 67,96,89, nenhum], 'Mark3': [91,92,98,97,87])
#cunct para nenhum valores em todo o DataFrame
Imprimir (Pyspark_pandas.não nulo())

Saída

Student_lastName Mark1 Mark2 Mark3
0 Verdadeiro verdadeiro verdadeiro
1 falso false verdadeiro verdadeiro
2 Verdadeiro verdadeiro verdadeiro
3 Verdadeiro verdadeiro verdadeiro
4 Verdadeiro verdadeiro verdadeiro

Podemos ver que NotNull retorna false onde quer que Nan exista.

Conclusão

Neste tutorial Pyspark Pandas Dataframe, vimos como verificar os valores da NAN no DataFrame. A ISNA é usada para retornar verdadeira se for Nan, e Notna e NotNull funcionarão o mesmo retornando verdadeiro se o valor não for NAN.