Pyspark - Operadores de comparação de dados de dados de pandas

Pyspark - Operadores de comparação de dados de dados de pandas
No Python, o Pyspark é um módulo Spark que fornece um tipo semelhante de processamento como o Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna. PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente. Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.

Neste artigo, demonstraremos os operadores de comparação de dados de dados do Pandas e como eles podem ser usados ​​no Pyspark. Antes disso, você deve instalar o módulo Pyspark, como mostrado abaixo:

Comando

pip install pyspark

Sintaxe para importar

De Pyspark Import pandas

Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.

Sintaxe para criar dados de dados de pandas

Pyspark.Pandas.Quadro de dados()

Podemos passar um dicionário ou lista de listas com valores. Vamos criar um quadro de dados de pandas através do Pyspark com três colunas e cinco linhas.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#mostrar
Imprimir (Pyspark_pandas)

Saída

Agora, entraremos em nosso tutorial.

Os operadores de comparação são usados ​​para comparar todos os valores no quadro de dados do Pyspark Pandas com um valor. Retorna verdadeiro se a condição for satisfeita; Caso contrário, retornará false para todos os valores em um quadro de dados.

Vamos vê -los um por um.

Pyspark.Pandas.Quadro de dados.LT (menos que o operador)

Este operador de comparação é usado para verificar se todos os valores do quadro de dados do Pyspark Pys Pandas são menores que o valor fornecido. Se sim, ele retornará verdadeiro para esse valor; Caso contrário, False é devolvido.

Também é possível usar '<' - less than operator.

Sintaxe

Pyspark_pandas.LT (valor)
Pyspark_pandasOnde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro
É preciso o valor como um parâmetro que se refere a um valor numérico.

ExemploNeste exemplo, compararemos os dados de dados criados acima com o valor - 75 usando LT e < operators.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Verifique todos os valores no quadro de dados acima são inferiores a 75
Imprimir (Pyspark_pandas.LT (75))
imprimir()
#Verifique todos os valores no quadro de dados acima são inferiores a 75
Imprimir (Pyspark_pandas<75)

Saída

Ambos os operadores retornaram o mesmo e, de acordo com a condição, valores menores de 75 retornaram true e, em outros casos, retornou falso.

Pyspark.Pandas.Quadro de dados.LE (menos ou igual ou igual operador)

LE é o operador de comparação usado para verificar se todos os valores no quadro de dados do Pyspark pandas é menor ou igual ao valor fornecido. Se sim, ele retornará verdadeiro para esse valor; Caso contrário, False é devolvido.

Também é possível usar '<=' - less than or equal to operator.

Sintaxe

Pyspark_pandas.LE (valor)
Pyspark_pandas<=value

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro
É preciso o valor como um parâmetro que se refere a um valor numérico.

Exemplo
Neste exemplo, compararemos os dados de dados criados acima com o valor - 75 usando LE e <= operators.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Verifique todos os valores no quadro de dados acima são menores ou iguais a 75
Imprimir (Pyspark_pandas.le (75))
imprimir()
#Verifique todos os valores no quadro de dados acima são menores ou iguais a 75
Imprimir (Pyspark_pandas<=75)

Saída

Ambos os operadores retornaram o mesmo e, de acordo com a condição, valores menores ou iguais a 75 retornaram true e, em outros casos, retornou falso.

Pyspark.Pandas.Quadro de dados.GT (maior que o operador)

Este operador de comparação é usado para verificar se todos os valores do quadro de dados do Pyspark PysPark são maiores que o valor fornecido. Se sim, ele retornará verdadeiro para esse valor; Caso contrário, False é devolvido.

Também é possível usar '>' - maior que o operador.

Sintaxe

Pyspark_pandas.GT (valor)
Pyspark_pandas> Valor

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro
É preciso o valor como um parâmetro que se refere a um valor numérico.

Exemplo
Neste exemplo, compararemos os dados de dados criados acima com o valor - 75 usando GT e> Operadores.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Verifique todos os valores no quadro de dados acima são maiores que 75
Imprimir (Pyspark_pandas.GT (75))
imprimir()
#Verifique todos os valores no quadro de dados acima são maiores que 75
Imprimir (Pyspark_pandas> 75)

Saída

Ambos os operadores retornaram o mesmo e, de acordo com a condição, valores maiores que 75 retornaram true e, em outros casos, retornou falso.

Pyspark.Pandas.Quadro de dados.GE (maior ou igual ou igual operador)

GE é o operador de comparação usado para verificar se todos os valores no quadro de dados do Pyspark Pandas são maiores ou iguais ao valor fornecido. Se sim, ele retornará verdadeiro para esse valor; Caso contrário, False é devolvido.

Também é possível usar '> =' - maior ou igual ao operador.

Sintaxe

Pyspark_pandas.GE (valor)
pyspark_pandas> = valor

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro
É preciso o valor como um parâmetro que se refere a um valor numérico.

Exemplo
Neste exemplo, compararemos os dados de dados criados acima com o valor - 75 usando GE e> = operadores.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Verifique todos os valores no quadro de dados acima são maiores ou iguais a 75
Imprimir (Pyspark_pandas.GE (75))
imprimir()
#Verifique todos os valores no quadro de dados acima são maiores ou iguais a 75
Imprimir (Pyspark_pandas> = 75)

Saída

Ambos os operadores retornaram o mesmo e, de acordo com a condição, valores maiores ou iguais a 75 retornaram true e, em outros casos, retornou falso.

Pyspark.Pandas.Quadro de dados.Eq (Operador Lógico da Igualdade)

EQ é o operador de comparação usado para verificar se todos os valores do quadro de dados do PYSPARK PYSPARK são iguais ao valor fornecido. Se sim, ele retornará verdadeiro para esse valor; Caso contrário, False é devolvido.

Também é possível usar '==' - igual ao operador.

Sintaxe

Pyspark_pandas.Eq (valor)
Pyspark_pandas == Valor

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro
É preciso o valor como um parâmetro que se refere a um valor numérico.

Exemplo
Neste exemplo, compararemos os dados de dados criados acima com o valor - 97 usando o Eq e == Operadores.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Verifique todos os valores no quadro de dados acima são iguais a 97
Imprimir (Pyspark_pandas.Eq (97))
imprimir()
#Verifique todos os valores no quadro de dados acima são iguais a 97
Imprimir (Pyspark_pandas == 97)

Saída

Ambos os operadores retornaram o mesmo e, de acordo com a condição, valores iguais a 97 retornaram true e, em outros casos, retornou falso.

Pyspark.Pandas.Quadro de dados.NE (não igual ao operador)

NE é o operador de comparação usado para verificar se todos os valores do quadro de dados do Pyspark pandas não são iguais ao valor fornecido. Se sim, ele retornará verdadeiro para esse valor; Caso contrário, False é devolvido.

Também é possível usar '!= ' - Não é igual ao operador.

Sintaxe

Pyspark_pandas.NE (valor)
Pyspark_pandas!= valor

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Parâmetro
É preciso o valor como um parâmetro que se refere a um valor numérico.

Exemplo
Neste exemplo, compararemos os dados de dados criados acima com o valor - 97 usando NE e != operadores.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Verifique todos os valores no quadro de dados acima não são iguais a 97
Imprimir (Pyspark_pandas.NE (97))
imprimir()
#Verifique todos os valores no quadro de dados acima não são iguais a 97
Imprimir (Pyspark_pandas!= 97)

Saída

Ambos os operadores retornaram o mesmo e, de acordo com a condição, valores não iguais a 97 retornaram true e, em outros casos, retornou falso.

Conclusão

Neste artigo do Pyspark Pandas, vemos como aplicar diferentes operadores de comparação no quadro de dados por meio de operadores internos e operadores normais. Cada operador retorna um valor booleano no elemento Pyspark Pandas Dataframe Wise. Os operadores de comparação que usamos são: eq (), ne (), lt (), gt (), le () e ge ().