Discutiremos sobre Pyspark - uma tecnologia significativa de processamento de dados que pode lidar com dados em uma escala de petabytes, Pyspark quando, caso contrário, e o caso SQL em Pyspark quando.
O que é Pyspark?
O Spark é um mecanismo de processamento distribuído e distribuído de uso geral, que permite lidar com os dados em várias máquinas com eficiência. Você pode desenvolver aplicativos Spark para processar os dados e executá -los na plataforma Spark usando Pyspark. O AWS oferece o EMR gerenciado e a plataforma Spark. Você pode usar o Pyspark para processar dados e estabelecer um cluster EMR na AWS. Pyspark pode ler os dados de vários formatos de arquivo, incluindo CSV, Parquet, JSON e Banco de Dados. Como o Spark é implementado principalmente em Scala, a criação de aplicativos Spark em Scala ou Java permite acessar mais de seus recursos do que escrever programas de faísca em python ou r. Pyspark, por exemplo, atualmente não suporta o conjunto de dados. Se você está fazendo uma ciência de dados, o Pyspark é uma opção melhor que o scala, porque existem muitas bibliotecas populares de ciência de dados escritas em python, como Numpy, Tensorflow e Scikit-Learn.
Pyspark "quando" e "caso contrário"
"Caso contrário" e "quando" em Pyspark, e o caso SQL "quando" trabalhando com o DataFrame Pyspark, como SQL e outras linguagens de programação, têm um mecanismo de verificar várias condições para retornar e retornar um valor quando a primeira condição é atendida usando SQL como caso e quando(). De outra forma() Expressões são semelhantes às declarações "Switch" e "if-then-else" em sua funcionalidade.
Pyspark quando o contrário - Quando () é uma função SQL que retorna um tipo de coluna e, caso contrário (), é uma função de coluna que produz nenhum/nulo, se outra () não é usado.
Caso SQL em Pyspark quando - Isso é semelhante a uma expressão de SQL e é usada da seguinte forma: Se a condição 1 for verdadeira, o resultado é verdadeiro e vice -versa.
Exemplo 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | importação org.apache.fagulha.SQL.funções.quando vald df = seq ( ("A B", "2019-01-19"), ("A A", "2019-01-10"), ("BF", "2019-01-15"), ("B e", "2019-01-30"), ("C B", "2019-01-22"), ("D O", "2019-01-30"), ("E u", "2019-01-22") df.withcolumn ("end_with_b", quando ($ "word".endswith ("b"), verdadeiro).caso contrário (false)) |
Exemplo 2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | importação org.apache.fagulha.SQL.funções.Element_at, dividido, quando vald df = seq ( ("Ba", "humano"), ("Ab", "humano"), ("E_BOT", "BOT"), ("D_bot", "bot"), ("Tt", "humano"), ("A_bot", "bot"), ("C_bot", "bot") ).Todf ("Usuário", "Tipo") df.Withcolumn ("ISBOT", quando ($ "Usuário".endswith ("bot"), element_at (split ($ "user", "_"), 1)))) |
Conclusão
Discutimos sobre Pyspark, Pyspark quando, Pyspark de outra forma, e o caso SQL em Pyspark quando é usado para verificar várias condições e retornar o primeiro elemento que segue a condição, juntamente com alguns exemplos.