Pyspark - classe de linha

Pyspark - classe de linha
No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame.

A aula de linha em Pyspark é usada para criar linha para o quadro de dados Pyspark. Podemos criar uma linha usando a função line ().

Isso está disponível no Pyspark.Módulo SQL. Então, temos que importar a linha deste módulo.

Sintaxe:

Linha (column_name = 'value',… .)

Onde,

  1. Column_name é a coluna para o pyspark DataFrame
  2. O valor é o valor da linha para uma coluna específica

Podemos especificar qualquer número de colunas na classe fila.

Se queremos criar várias linhas, precisamos especificar a classe de linha dentro de uma lista separada por um operador de vírgula.

Sintaxe:

[Linha (column_name = 'value',… .), Linha (column_name = 'value',… .)
,...]

Para criar o quadro de dados Pyspark a partir desta linha, simplesmente passamos a lista de linhas para o método CreateDataFrame ().

Se queremos exibir o quadro de dados Pyspark no formato da linha, temos que usar o método collect ().

Este método é usado para obter os dados em uma linha por linha formato

Sintaxe:

Quadro de dados.colecionar ()

Onde dataframe é o pyspark dataframe de entrada.

Exemplo :

Este exemplo criará 5 linhas usando a classe de linha com 6 colunas e exibirá o quadro de dados usando o método collect ().

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão e linha
de Pyspark.SQL Import SparkSession, Linha
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
#create linhas
row_data = [linha (rollno = '001', nome = 'sravan', idade = 23, altura = 5.79, peso = 67, endereço = 'guntur'),
Linha (rollno = '002', nome = 'ojaswi', idade = 16, altura = 3.79, peso = 34, endereço = 'hyd'),
Linha (rollno = '003', nome = 'gnanesh Chowdary', idade = 7, altura = 2.79, peso = 17, endereço = 'patna'),
Linha (rollno = '004', nome = 'rohith', idade = 9, altura = 3.69, peso = 28, endereço = 'hyd'),
Linha (rollno = '005', nome = 'sridevi', idade = 37, altura = 5.59, peso = 54, endereço = 'hyd')]]
#Crie o DataFrame de Row_Data
df = spark_app.CreatedataFrame (Row_Data)
# Exiba o DataFrame
#by linhas
df.colecionar ()

Saída:

[Linha (rollno = '001', nome = 'sravan', idade = 23, altura = 5.79, peso = 67, endereço = 'guntur'),
Linha (rollno = '002', nome = 'ojaswi', idade = 16, altura = 3.79, peso = 34, endereço = 'hyd'),
Linha (rollno = '003', nome = 'gnanesh Chowdary', idade = 7, altura = 2.79, peso = 17, endereço = 'patna'),
Linha (rollno = '004', nome = 'rohith', idade = 9, altura = 3.69, peso = 28, endereço = 'hyd'),
Linha (rollno = '005', nome = 'sridevi', idade = 37, altura = 5.59, peso = 54, endereço = 'hyd')]]

Também podemos definir as colunas primeiro e depois passar os valores para as linhas.

Isso é feito usando o nome da linha. Definiremos as colunas com o nome da linha e, usando isso, podemos adicionar valores à linha

Sintaxe:

Row_name = linha ("column_name1", column_name2 ",… .,”Column_name n)
[Row_name (value1, value2,…, valuen),…, row_name (value1, value2,…, valuen)]

Exemplo:

Neste exemplo, vamos adicionar 6 colunas com o nome da linha como alunos com nomes como "rollno", "nome", "idade", "altura", "peso", "endereço" e adicionar 5 valores a esses alunos Row Row.

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão e linha
de Pyspark.SQL Import SparkSession, Linha
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie uma linha com 6 colunas
alunos = linha ("rollno", "nome", "idade", "altura", "peso", "endereço")
#Crie valores para as linhas
row_data = [alunos ('001', 'sravan', 23,5.79,67, 'Guntur'),
alunos ('002', 'ojaswi', 16,3.79,34, 'Hyd'),
Alunos ('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
Alunos ('004', 'Rohith', 9,3.69,28, 'Hyd'),
alunos ('005', 'sridevi', 37,5.59,54, 'Hyd')]
#Crie o DataFrame de Row_Data
df = spark_app.CreatedataFrame (Row_Data)
# Exiba o DataFrame
#by linhas
df.colecionar ()

Saída:

[Linha (rollno = '001', nome = 'sravan', idade = 23, altura = 5.79, peso = 67, endereço = 'guntur'),
Linha (rollno = '002', nome = 'ojaswi', idade = 16, altura = 3.79, peso = 34, endereço = 'hyd'),
Linha (rollno = '003', nome = 'gnanesh Chowdary', idade = 7, altura = 2.79, peso = 17, endereço = 'patna'),
Linha (rollno = '004', nome = 'rohith', idade = 9, altura = 3.69, peso = 28, endereço = 'hyd'),
Linha (rollno = '005', nome = 'sridevi', idade = 37, altura = 5.59, peso = 54, endereço = 'hyd')]]

Criando uma linha aninhada

Linha dentro de uma linha é conhecida como linha aninhada. Podemos criar a linha aninhada dentro da linha é semelhante à criação normal de linha

Sintaxe:

[Linha (column_name = linha (column_name = 'value',… .),… .),
Linha (column_name = linha (column_name = 'value',… .),
...]

Exemplo:

Neste exemplo, criaremos dados de dados semelhantes aos acima, mas estamos adicionando uma coluna denominada sujeitos a cada linha e adicionando valores de java e php usando linha aninhada.

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão e linha
de Pyspark.SQL Import SparkSession, Linha
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
#create linhas
row_data = [linha (rollno = '001', nome = 'sravan', idade = 23, altura = 5.79, peso = 67, endereço = 'guntur', sujeitos = linha (sujeito1 = 'java', sujeito2 = 'php'))),
Linha (rollno = '002', nome = 'ojaswi', idade = 16, altura = 3.79, peso = 34, endereço = 'hyd', sujeitos = linha (sujeito1 = 'java', sujeito2 = 'php'))),
Linha (rollno = '003', nome = 'gnanesh Chowdary', idade = 7, altura = 2.79, peso = 17, endereço = 'patna', sujeitos = linha (sujeito1 = 'java', sujeito2 = 'php'))),
Linha (rollno = '004', nome = 'rohith', idade = 9, altura = 3.69, peso = 28, endereço = 'hyd', sujeitos = linha (sujeito1 = 'java', sujeito2 = 'php'))),
Linha (rollno = '005', nome = 'sridevi', idade = 37, altura = 5.59, peso = 54, endereço = 'hyd', sujeitos = linha (sujeito1 = 'java', sujeito2 = 'php'))]
#Crie o DataFrame de Row_Data
df = spark_app.CreatedataFrame (Row_Data)
# Exiba o DataFrame
#by linhas
df.colecionar ()

Saída:

[Linha (rollno = '001', nome = 'sravan', idade = 23, altura = 5.79, peso = 67, endereço = 'guntur', sujeitos = linha (sujeito1 = 'java', sujeito2 = 'php'))),
Linha (rollno = '002', nome = 'ojaswi', idade = 16, altura = 3.79, peso = 34, endereço = 'hyd', sujeitos = linha (sujeito1 = 'java', sujeito2 = 'php'))),
Linha (rollno = '003', nome = 'gnanesh Chowdary', idade = 7, altura = 2.79, peso = 17, endereço = 'patna', sujeitos = linha (sujeito1 = 'java', sujeito2 = 'php'))),
Linha (rollno = '004', nome = 'rohith', idade = 9, altura = 3.69, peso = 28, endereço = 'hyd', sujeitos = linha (sujeito1 = 'java', sujeito2 = 'php'))),
Linha (rollno = '005', nome = 'sridevi', idade = 37, altura = 5.59, peso = 54, endereço = 'hyd', sujeitos = linha (sujeito1 = 'java', sujeito2 = 'php'))]

Conclusão:

Este artigo discutiu a aula de linha e como criar dados de dados Pyspark usando a classe Linha. Por fim, discutimos aula de linha aninhada.