A função entre () no Pyspark é usada para selecionar os valores dentro do intervalo especificado. Pode ser usado com o método select ().
Ele retornará verdadeiro em todos os valores dentro do intervalo especificado.
Para os valores que não estão no intervalo especificado, False é retornado.
Sintaxe
dataframe_obj.Selecione (dataframe_obj.idade.entre (baixo, alto))
Onde,
dataframe_object é o pyspark dataframe.
Parâmetros:
São necessários dois parâmetros.
- A baixa será o intervalo de partida
- A alta será o alcance final.
Retornar:
Ele retorna todas as linhas com valores booleanos (true/false).
Vamos olhar para diferentes exemplos.
Exemplo 1
Aqui, obteremos os valores na coluna de idade que estão na faixa de 10 a 21.
Importar Pyspark
de Pyspark.Importação SQL *
Spark_App = SparkSession.construtor.nome do aplicativo('_').getorcreate ()
alunos = [(4, 'sravan', 23, 'php', 'testes'),
(2, 'Sravan', 23, 'Oracle', 'Testing'),
(46, 'Mounika', 22, '.Net ',' html '),
(12, 'Deepika', 21, 'Oracle', 'Html'),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Testing'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, '.Net ',' teste ')
]
dataframe_obj = spark_app.CreatedataFrame (estudantes, ['sujeito_id', 'nome', 'idade', 'tecnologia1', 'tecnologia2']))
print ("--- DataFrame real ---")
dataframe_obj.mostrar()
print ("--- Os valores na coluna de idade entre 10 e 21 ---")
dataframe_obj.Selecione (dataframe_obj.idade, dataframe_obj.idade.entre (10, 21)).mostrar()
Saída:
Você pode ver que os valores na coluna de idade retornaram true entre 10 e 21. O restante dos valores retornou falso.
Exemplo 2
Aqui, teremos os valores na coluna sujeito_id que estão na faixa de 40 a 46.
Importar Pyspark
de Pyspark.Importação SQL *
Spark_App = SparkSession.construtor.nome do aplicativo('_').getorcreate ()
alunos = [(4, 'sravan', 23, 'php', 'testes'),
(2, 'Sravan', 23, 'Oracle', 'Testing'),
(46, 'Mounika', 22, '.Net ',' html '),
(12, 'Deepika', 21, 'Oracle', 'Html'),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Testing'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, '.Net ',' teste ')
]
dataframe_obj = spark_app.CreatedataFrame (estudantes, ['sujeito_id', 'nome', 'idade', 'tecnologia1', 'tecnologia2']))
print ("--- DataFrame real ---")
dataframe_obj.mostrar()
print ("--- Os valores na coluna Subject_id entre 40 e 46 ---")
dataframe_obj.Selecione (dataframe_obj.sujeito_id, dataframe_obj.sujeito_id.entre (40,46)).mostrar()
Saída:
Você pode ver que os valores na coluna Subject_id retornaram true que estão entre 40 e 46. O restante dos valores é retornado falso.
Exemplo 3
Aqui, obteremos os valores na coluna Subject_id que estão na faixa de 60 a 100.
Importar Pyspark
de Pyspark.Importação SQL *
Spark_App = SparkSession.construtor.nome do aplicativo('_').getorcreate ()
alunos = [(4, 'sravan', 23, 'php', 'testes'),
(2, 'Sravan', 23, 'Oracle', 'Testing'),
(46, 'Mounika', 22, '.Net ',' html '),
(12, 'Deepika', 21, 'Oracle', 'Html'),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Testing'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, '.Net ',' teste ')
]
dataframe_obj = spark_app.CreatedataFrame (estudantes, ['sujeito_id', 'nome', 'idade', 'tecnologia1', 'tecnologia2']))
print ("--- DataFrame real ---")
dataframe_obj.mostrar()
print ("--- Os valores na coluna Subject_id entre 60 e 100 ---")
dataframe_obj.Selecione (dataframe_obj.sujeito_id, dataframe_obj.sujeito_id.entre (60.100)).mostrar()
Saída:
Você pode ver que os valores não na coluna Subject_id não estão no intervalo especificado. Então, para todas as linhas, False é devolvido.
Conclusão
Neste tutorial Pyspark, discutimos a função entre (). Em que a função entre () seleciona os valores dentro do intervalo especificado. Pode ser usado com o método select (). Ele retornará verdadeiro em todos os valores que estão dentro do intervalo especificado. Para os valores que não estão no intervalo especificado, False é retornado.