Funções de like e ilike pyspark

Funções de like e ilike pyspark
Se quisermos retornar os valores da coluna DataFrame com base na correspondência da string em Pyspark, os métodos LIFE () e ilike () disponíveis no Pyspark são usados ​​para retornar as linhas com base nos valores especificados dentro dele.

Eles podem ser usados ​​com a cláusula de filtro ou onde a cláusula. Vamos vê -los um por um com exemplos diferentes.

como () função

A função Like () em Pyspark é usada para verificar se existe uma string ou um padrão em uma coluna de DataFrame de Pyspark. Se existir, as linhas correspondentes serão devolvidas. Caso contrário, um quadro de dados vazio é retornado. É sensível ao caso.

Sintaxe

dataframe_object.filtro (dataframe_obj.coluna.como (padrão/string))
dataframe_object.onde (dataframe_obj.coluna.como (padrão/string))

Onde,
dataframe_object é o pyspark dataframe.

Parâmetro:
O como() A função tem um parâmetro.

Pode ser um padrão ou uma sequência de tal.

Retornar:
Com base neste valor da coluna, toda a linha é retornada.

Primeiro, criaremos o Pyspark DataFrame com 10 linhas e 5 colunas.

Importar Pyspark
de Pyspark.Importação SQL *
Spark_App = SparkSession.construtor.nome do aplicativo('_').getorcreate ()
alunos = [(4, 'sravan', 23, 'php', 'testes'),
(2, 'Sravan', 23, 'Oracle', 'Testing'),
(46, 'Mounika', 22, '.Net ',' html '),
(12, 'Deepika', 21, 'Oracle', 'Html'),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Testing'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, '.Net ',' teste ')
]
dataframe_obj = spark_app.CreatedataFrame (estudantes, ['sujeito_id', 'nome', 'idade', 'tecnologia1', 'tecnologia2']))
dataframe_obj.mostrar()

Saída:

Agora, vamos aplicar a função como () no quadro de dados Pyspark para retornar os resultados.

Exemplo 1
Forneceremos a string, 'sravan', na coluna de nome dentro do método como () e retornar todas as linhas que correspondem a essa string.

#check para string- sravan na coluna Nome e retorne linhas com o nome - Sravan.
Print ("-------- Usando a cláusula onde () --------")
dataframe_obj.onde (dataframe_obj.nome.como ('sravan')).mostrar()
#check para string- sravan na coluna Nome e retorne linhas com o nome - Sravan.
Print ("-------- Usando a Cláusula Filter () --------")
dataframe_obj.filtro (dataframe_obj.nome.como ('sravan')).mostrar()

Saída:

Você pode ver que Sravan é encontrado três vezes e as linhas foram devolvidas.

Exemplo 2
Forneceremos a string, 'php', na coluna Technology1 dentro do método como () e retornar todas as linhas que correspondem a essa string.

#check para string- php na coluna Technology1 e retorno linhas com tecnologia1 - php.
Print ("-------- Usando a cláusula onde () --------")
dataframe_obj.onde (dataframe_obj.Technology1.como ('php')).mostrar()
#check para string- php na coluna Technology1 e retorno linhas com tecnologia1 - php.
Print ("-------- Usando a Cláusula Filter () --------")
dataframe_obj.filtro (dataframe_obj.Technology1.como ('php')).mostrar()

Saída:

Você pode ver que o PHP não é encontrado na coluna Technology1. Portanto, 0 linhas foram devolvidas.

função ilike ()

A função ilike () em Pyspark é usada para verificar se uma string ou um padrão existe em uma coluna de quadro de dados Pyspark. Se existir, as linhas correspondentes serão devolvidas. Caso contrário, o quadro de dados vazio é retornado. É insensível ao caso.

Sintaxe

dataframe_object.filtro (dataframe_obj.coluna.ilike (padrão/string))
dataframe_object.onde (dataframe_obj.coluna.ilike (padrão/string))

Onde,
dataframe_object é o pyspark dataframe.

Parâmetro:
A função ilike () tem um parâmetro.

Pode ser um padrão ou uma string de tal forma que a função ilike () verificará se o valor especificado está presente na coluna DataFrame ou não.

Retornar:
Com base neste valor da coluna, toda a linha é retornada.

Exemplo 1
Forneceremos a string, 'sravan', na coluna de nome dentro do método ilike () e retornar todas as linhas que correspondem a essa string.

#check para string- sravan na coluna Nome e retorne linhas com o nome - Sravan.
Print ("-------- Usando a cláusula onde () --------")
dataframe_obj.onde (dataframe_obj.nome.ilike ('sravan')).mostrar()
#check para string- sravan na coluna Nome e retorne linhas com o nome - Sravan.
Print ("-------- Usando a Cláusula Filter () --------")
dataframe_obj.filtro (dataframe_obj.nome.ilike ('sravan')).mostrar()

Saída:

Explicação
Você pode ver que Sravan é encontrado três vezes e as linhas foram devolvidas.

Exemplo 2
Forneceremos a string, 'php', na coluna Technology1 dentro do método como () e retornar todas as linhas que correspondem a essa string.

#CHECK PAR.
Print ("-------- Usando a cláusula onde () --------")
dataframe_obj.onde (dataframe_obj.Technology1.ilike ('php')).mostrar()
#CHECK PAR.
Print ("-------- Usando a Cláusula Filter () --------")
dataframe_obj.filtro (dataframe_obj.Technology1.ilike ('php')).mostrar()

Saída:

Explicação
Você pode ver que o PHP não é encontrado na coluna Technology1. Mas ilike () é insensível ao caso. Então, é preciso PHP e PHP como o mesmo. Então, as linhas foram devolvidas.

Conclusão

Neste tutorial Pyspark, vimos duas funções que retornam valores com base na correspondência da string na coluna Pyspark Dataframe. As funções como () e ilike () são usadas para verificar se uma string ou um padrão existe em uma coluna de pyspark dataframe. A diferença é como () é sensível ao caso e o ilike () é insensível ao caso.