Caso SQL Pyspark quando

Caso SQL Pyspark quando

Discutiremos sobre Pyspark - uma tecnologia significativa de processamento de dados que pode lidar com dados em uma escala de petabytes, Pyspark quando, caso contrário, e o caso SQL em Pyspark quando.

O que é Pyspark?

O Spark é um mecanismo de processamento distribuído e distribuído de uso geral, que permite lidar com os dados em várias máquinas com eficiência. Você pode desenvolver aplicativos Spark para processar os dados e executá -los na plataforma Spark usando Pyspark. O AWS oferece o EMR gerenciado e a plataforma Spark. Você pode usar o Pyspark para processar dados e estabelecer um cluster EMR na AWS. Pyspark pode ler os dados de vários formatos de arquivo, incluindo CSV, Parquet, JSON e Banco de Dados. Como o Spark é implementado principalmente em Scala, a criação de aplicativos Spark em Scala ou Java permite acessar mais de seus recursos do que escrever programas de faísca em python ou r. Pyspark, por exemplo, atualmente não suporta o conjunto de dados. Se você está fazendo uma ciência de dados, o Pyspark é uma opção melhor que o scala, porque existem muitas bibliotecas populares de ciência de dados escritas em python, como Numpy, Tensorflow e Scikit-Learn.

Pyspark "quando" e "caso contrário"

"Caso contrário" e "quando" em Pyspark, e o caso SQL "quando" trabalhando com o DataFrame Pyspark, como SQL e outras linguagens de programação, têm um mecanismo de verificar várias condições para retornar e retornar um valor quando a primeira condição é atendida usando SQL como caso e quando(). De outra forma() Expressões são semelhantes às declarações "Switch" e "if-then-else" em sua funcionalidade.

Pyspark quando o contrário - Quando () é uma função SQL que retorna um tipo de coluna e, caso contrário (), é uma função de coluna que produz nenhum/nulo, se outra () não é usado.

Caso SQL em Pyspark quando - Isso é semelhante a uma expressão de SQL e é usada da seguinte forma: Se a condição 1 for verdadeira, o resultado é verdadeiro e vice -versa.

Exemplo 1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
importação org.apache.fagulha.SQL.funções.quando
vald df = seq (
("A B", "2019-01-19"),
("A A", "2019-01-10"),
("BF", "2019-01-15"),
("B e", "2019-01-30"),
("C B", "2019-01-22"),
("D O", "2019-01-30"),
("E u", "2019-01-22")
df.withcolumn ("end_with_b", quando ($ "word".endswith ("b"), verdadeiro).caso contrário (false))

Exemplo 2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
importação org.apache.fagulha.SQL.funções.Element_at, dividido, quando
vald df = seq (
("Ba", "humano"),
("Ab", "humano"),
("E_BOT", "BOT"),
("D_bot", "bot"),
("Tt", "humano"),
("A_bot", "bot"),
("C_bot", "bot")
).Todf ("Usuário", "Tipo")
df.Withcolumn ("ISBOT", quando ($ "Usuário".endswith ("bot"), element_at (split ($ "user", "_"), 1))))

Conclusão

Discutimos sobre Pyspark, Pyspark quando, Pyspark de outra forma, e o caso SQL em Pyspark quando é usado para verificar várias condições e retornar o primeiro elemento que segue a condição, juntamente com alguns exemplos.