Pyspark - Dropna

Pyspark - Dropna

No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame.

Dropna () em Pyspark é usado para remover os valores nulos do quadro de dados. Antes de discutir esse método, temos que criar dados de dados Pyspark para demonstração. Podemos criar valores nulos usando nenhum valor.

Exemplo:

Vamos criar um dataframe com 5 linhas e 6 colunas com valores nulos e exibi -lo usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': nenhum, 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 56, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': nenhum, 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': nenhum,
'rollno': nenhum, 'nome': nenhum, 'idade': nenhum, 'altura': nenhum, 'peso': nenhum, 'endereço': nenhum]
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O DataFrame
df.mostrar()

Saída:

Sintaxe:

quadro de dados.Dropna (Como, Thresh, Subconnst)

Onde,

  1. quadro de dados é o quadro de dados Pyspark de entrada
  2. como é o primeiro parâmetro opcional que levará dois valores possíveis
  1. qualquer - Este valor cai as linhas, se algum valor for nulo em linhas/colunas.
  2. todos - Este valor cai as linhas, se todos os valores forem nulos em linhas/colunas.
  1. Thresh é um segundo parâmetro opcional é usado para soltar as linhas / colunas com base no valor inteiro atribuído a ele. Se os valores não nulos presentes na linha/coluna do quadro de dados Pyspark forem menores que o valor limite mencionado, os valores nulos poderão ser descartados daquelas linhas.
  2. subconjunto é um terceiro parâmetro opcional usado para retirar os valores da coluna/s mencionada. Serão necessárias colunas únicas/múltiplas como entrada através de uma tupla de nomes de colunas.

Exemplo 1:

Neste exemplo, estamos retirando as linhas do quadro de dados criado acima, sem parâmetros e exibindo o quadro de dados usando o método show (). Portanto, o resultado será a última linha porque não contém valores nulos nessa linha.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': nenhum, 'altura': 5.79, 'Peso': Nenhum, 'Endereço': 'Guntur',
'rollno': '002', 'nome': nenhum, 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 56, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': nenhum, 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': nenhum,
'rollno': nenhum, 'nome': nenhum, 'idade': nenhum, 'altura': nenhum, 'peso': nenhum, 'endereço': nenhum]
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Drop o DataFrame sem parâmetros
df.Dropna ().mostrar()

Saída:

Exemplo 2:

Neste exemplo, estamos retirando as linhas do quadro de dados criado acima, especificando como parâmetro e definido como 'All' e exibindo o DataFrame usando o método show (). Portanto, o resultado será todas linhas, exceto a última linha, porque contém todos os valores nulos.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': nenhum, 'altura': 5.79, 'Peso': Nenhum, 'Endereço': 'Guntur',
'rollno': '002', 'nome': nenhum, 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 56, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': nenhum, 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': nenhum,
'rollno': nenhum, 'nome': nenhum, 'idade': nenhum, 'altura': nenhum, 'peso': nenhum, 'endereço': nenhum]
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Drop o DataFrame com como o parâmetro
df.Dropna (Como = 'All').mostrar()

Saída:

Exemplo 3:

Neste exemplo, estamos retirando as linhas do quadro de dados criado acima, especificando como parâmetro e definido como 'qualquer' e exibindo o quadro de dados usando o método show (). Portanto, o resultado será uma única linha que não contém valores nulos.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': nenhum, 'altura': 5.79, 'Peso': Nenhum, 'Endereço': 'Guntur',
'rollno': '002', 'nome': nenhum, 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 56, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': nenhum, 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': nenhum,
'rollno': nenhum, 'nome': nenhum, 'idade': nenhum, 'altura': nenhum, 'peso': nenhum, 'endereço': nenhum]
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Drop o DataFrame com como o parâmetro
df.Dropna (como = 'qualquer').mostrar()

Saída:

Exemplo 4:

Neste exemplo, estamos retirando as linhas do quadro de dados criado acima, especificando o parâmetro Thresh e definido como 5 e exibindo o quadro de dados usando o método show (). Portanto, o resultado será duas linhas, porque essas linhas têm mais de 5 valores não nulos.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': nenhum, 'altura': 5.79, 'Peso': Nenhum, 'Endereço': 'Guntur',
'rollno': '002', 'nome': nenhum, 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 56, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': nenhum, 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': nenhum,
'rollno': nenhum, 'nome': nenhum, 'idade': nenhum, 'altura': nenhum, 'peso': nenhum, 'endereço': nenhum]
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Drop o DataFrame com o parâmetro Thresh
df.Dropna (Thresh = 5).mostrar()

Saída:

Exemplo 5:

Neste exemplo, estamos retirando as linhas do quadro de dados criado acima, especificando o parâmetro do subconjunto e atribuindo a coluna "Peso" e exibindo o quadro de dados usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': nenhum, 'altura': 5.79, 'Peso': Nenhum, 'Endereço': 'Guntur',
'rollno': '002', 'nome': nenhum, 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 56, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': nenhum, 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': nenhum,
'rollno': nenhum, 'nome': nenhum, 'idade': nenhum, 'altura': nenhum, 'peso': nenhum, 'endereço': nenhum]
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Drop o DataFrame com parâmetro de subconjunto
df.Dropna (Subset = "Weight").mostrar()

Saída:

Exemplo 6:

Neste exemplo, estamos soltando as linhas do quadro de dados criado acima, especificando o parâmetro do subconjunto e atribuindo colunas "Peso" e "Nome" e exibindo o DataFrame usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': nenhum, 'altura': 5.79, 'Peso': Nenhum, 'Endereço': 'Guntur',
'rollno': '002', 'nome': nenhum, 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 56, 'altura': 2.79, 'Peso': 17,
'Endereço': 'Patna',
'rollno': nenhum, 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': nenhum,
'rollno': nenhum, 'nome': nenhum, 'idade': nenhum, 'altura': nenhum, 'peso': nenhum, 'endereço': nenhum]
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Drop o DataFrame com parâmetro de subconjunto
df.Dropna (subconjunto = ("Peso", "Nome"))).mostrar()

Saída:

Conclusão

Neste artigo, elaboramos sobre como usar o método Dropna () com o Pyspark Dataframe, considerando todos os parâmetros. Também podemos soltar todos os valores nulos do quadro sem especificar esses parâmetros.