Ele fornece os métodos Structype () e Structfield () que são usados para definir as colunas no Pyspark DataFrame.
Ao usar esses métodos, podemos definir os nomes das colunas e os tipos de dados das colunas.
Structype ()
Este método é usado para definir a estrutura do quadro de dados Pyspark. Ele aceitará uma lista de tipos de dados, juntamente com nomes de colunas para o DataFrame especificado. Isso é conhecido como o esquema do DataFrame. Ele armazena uma coleção de campos.
Structfield ()
Este método é usado dentro do método structtype () do pyspark dataframe. Ele aceitará nomes de colunas com o tipo de dados.
ArrayType ()
Este método é usado para definir a estrutura da matriz do quadro de dados Pyspark. Ele aceitará uma lista de tipos de dados. Ele armazena uma coleção de campos. Podemos colocar tipos de dados dentro do ArrayType ().
Neste artigo, devemos criar um quadro de dados com uma matriz.
Vamos criar um quadro de dados com 2 colunas. A primeira coluna é Student_category, que se refere ao campo inteiro para armazenar IDs de estudante. A segunda coluna - Student_full_Name é usada para armazenar valores de string em uma matriz criada usando ArrayType ().
#import o módulo PysparkSaída:
Array_min ()
Agora, veremos o que Array_min () faz.
Array_min () retorna os valores mínimos em cada linha da coluna do tipo de matriz.
Isso é possível usando o método select (). Dentro deste método, podemos usar a função Array_min () e retornar o resultado.
Sintaxe:
quadro de dados.Selecione (Array_min (Array_Column))Parâmetros:
Array_column contém valores do tipo de matrizRetornar:
Ele retornará valores mínimos em uma matriz em todas as linhas em uma coluna de matriz.
Exemplo:
Neste exemplo, retornaremos os valores mínimos em uma coluna de matriz - Student_full_Name
#import o módulo PysparkSaída:
Podemos ver que na primeira linha, - a matriz contém: a, então a será o mínimo (comparado com base nos valores ASCII).
Na segunda linha - a matriz tem B, L, B. - B é mínimo
Na terceira fila - a matriz tem k, a, k. - A é mínimo
Na quarta fila - a matriz tem k-. K é mínimo
Na quinta fila - a matriz tem B, p. - B é mínimo
Array_max ()
Agora, veremos o que Array_max () faz.
Array_max () retorna os valores máximos em cada linha da coluna do tipo de matriz.
Isso é possível usando o método select (). Dentro deste método, podemos usar a função Array_max () e retornar o resultado.
Sintaxe:
quadro de dados.Selecione (Array_max (Array_column))Parâmetros:
Array_column contém valores do tipo de matrizRetornar:
Ele retornará valores máximos em uma matriz em todas as linhas em uma coluna de matriz.
Exemplo:
Neste exemplo, retornaremos os valores máximos em uma coluna de matriz - Student_full_Name
#import o módulo PysparkSaída:
Podemos ver que na primeira linha - a matriz contém: a, então a será o máximo (comparado com base nos valores ASCII).
Na segunda linha - a matriz tem B, L, B. - L é o máximo
Na terceira fila - a matriz tem k, a, k. - K é o máximo
Na quarta fila - a matriz tem k-. K é o máximo
Na quinta fila - a matriz tem B, P. - P é o máximo.
Conclusão
Neste tutorial, vimos as funções Array_min () e Array_max (). Array_min usado para retornar valores mínimos em uma coluna do tipo de matriz em todas as linhas. Array_max é usado para retornar valores máximos em uma coluna do tipo de matriz em todas as linhas.