PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.
Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
pip install pysparkSintaxe para importar
De Pyspark Import pandasDepois disso, podemos criar ou usar o quadro de dados do módulo pandas.
Sintaxe para criar dados de dados de pandas:
Pyspark.Pandas.Quadro de dados()Podemos passar um dicionário ou lista de listas com valores.
Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.
#import pandas do módulo PysparkSaída
Agora, entraremos em nosso tutorial.
As funções ISNA (), Notna () e NotNull () são usadas para verificar se nenhum valores ocorreram no Pyspark Pandas Dataframe. Eles são representados por NAN (não um número); em Python, podemos criá -los usando nenhum.
Vamos vê -los um por um.
Pyspark.Pandas.Quadro de dados.ISNA
ISNA é usado para verificar se o valor é nulo. Se for nulo, ele retornará verdadeiro nesse valor. Caso contrário, ele retorna falso. Não leva parâmetros.
Sintaxe
Pyspark_pandas.ISNAOnde Pyspark_pandas é o Pyspark Pandas Dataframe.
Também podemos verificar em colunas específicas.
Sintaxe
Pyspark_pandas.coluna.ISNAOnde a coluna é o nome da coluna.
Exemplo 1
Neste exemplo, verificaremos os valores da NAN na coluna Mark1 usando ISNA.
Saída
0 FALSOPodemos ver que na segunda e terceira fileira - está disponível, então nessas posições, a ISNA retornou verdadeira. Em outros casos, retornou falso.
Exemplo 2
Neste exemplo, verificaremos os valores da NAN em todo o Pyspark Pandas Dataframe usando ISNA.
Saída
Student_lastName Mark1 Mark2 Mark3Podemos ver que o ISNA retorna verdadeiro onde quer que a nan exista.
Pyspark.Pandas.Quadro de dados.Notna
Notna é usada para verificar se o valor não é nulo. Se for nulo, ele retornará falso nesse valor. Caso contrário, ele retorna verdadeiro. Não leva parâmetros.
Sintaxe
Pyspark_pandas.NotnaOnde Pyspark_pandas é o Pyspark Pandas Dataframe.
Também podemos verificar em colunas específicas.
Sintaxe
Pyspark_pandas.coluna.NotnaOnde a coluna é o nome da coluna.
Exemplo 1
Neste exemplo, verificaremos os valores da NAN na coluna Mark1 usando Notna.
Saída
0 VerdadeiroPodemos ver que na segunda e terceira fila - Nan não está disponível; portanto, nessas posições, Notna retornou falsa. Em outros casos, retornou verdadeiro.
Exemplo 2
Neste exemplo, verificaremos os valores da NAN em todo o Pyspark Pandas Dataframe usando ISNA.
Saída
Student_lastName Mark1 Mark2 Mark3Podemos ver que Notna retorna falsa onde quer que a nan exista.
Pyspark.Pandas.Quadro de dados.não nulo
NotNull é semelhante a Notna usada para verificar se o valor não é nulo. Se for nulo, ele retornará falso nesse valor. Caso contrário, ele retorna verdadeiro. Não leva parâmetros.
Sintaxe
Pyspark_pandas.não nuloOnde Pyspark_pandas é o Pyspark Pandas Dataframe.
Também podemos verificar em colunas específicas.
Sintaxe
Pyspark_pandas.coluna.não nuloOnde a coluna é o nome da coluna.
Exemplo 1
Neste exemplo, verificaremos os valores da NAN na coluna Mark1 usando NotNull.
Saída
0 VerdadeiroPodemos ver que na segunda e terceira fila - Nan não está disponível; portanto, nessas posições, NotNull retornou falso. Em outros casos, retornou verdadeiro.
Exemplo 2
Neste exemplo, verificaremos os valores da NAN em todo o Pyspark Pandas Dataframe usando NotNull.
Saída
Student_lastName Mark1 Mark2 Mark3Podemos ver que NotNull retorna false onde quer que Nan exista.
Conclusão
Neste tutorial Pyspark Pandas Dataframe, vimos como verificar os valores da NAN no DataFrame. A ISNA é usada para retornar verdadeira se for Nan, e Notna e NotNull funcionarão o mesmo retornando verdadeiro se o valor não for NAN.