Pyspark RDD - Ações

Pyspark RDD - Ações
Em Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark.

RDD significa conjuntos de dados distribuídos resilientes. Podemos chamar RDD como uma estrutura de dados fundamental no Apache Spark.

Precisamos importar RDD do Pyspark.Módulo RDD.

Em Pyspark para criar um RDD, podemos usar o método parallelize ().

Sintaxe:

Spark_App.SparkContext.paralelize (dados)

Onde:

Os dados podem ser um dados unidimensional (dados lineares) ou bidimensionais (dados da coluna de linha).

RDD Ações:

Uma ação no RDD é uma operação aplicada em um RDD para retornar um único valor. Em outras palavras, podemos dizer que uma ação resultará dos dados fornecidos fazendo alguma operação no RDD fornecido.

Vamos ver as ações que são executadas no RDD fornecido.

Vamos discutir isso um por um.

Para todas as ações, consideramos o RDD dos alunos como mostrado abaixo:

['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']

colecionar ()


colet () Ação em RDD é usada para retornar os dados do RDD fornecido.

Sintaxe:

Rdd_data.colecionar ()

Onde os dados de RDD são o RDD

Exemplo:

Neste exemplo, veremos como executar a ação colecionada () nos alunos RDD.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = spark_app.SparkContext.paralelize (['rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']))
#Performa a ação de coleta
Imprimir (alunos.colet ()))

Saída:

['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']

Você pode notar que todos os dados são retornados com o método collect ().

2. contar()

Count () Ação em RDD é usada para retornar o número total de elementos/valores do RDD fornecido.

Sintaxe:

Rdd_data.contar()

Onde dados de RDD são o RDD

Exemplo:

Neste exemplo, veremos como executar a ação count () no RDD dos alunos:

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = spark_app.SparkContext.paralelize (['rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']))
#Perform Count Action
Imprimir (alunos.contar())

Saída:

5

Você pode notar que o número total de elementos é retornado com o método count ().

3. primeiro()

Primeiro () Ação em RDD é usada para retornar o primeiro elemento/valor do RDD fornecido.

Sintaxe:

Rdd_data.primeiro()

Onde dados de RDD são o RDD

Exemplo:

Neste exemplo, veremos como executar primeiro () ação sobre os alunos RDD.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = spark_app.SparkContext.paralelize (['rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']))
#Apply First () ação
Imprimir (alunos.primeiro())

Saída:

'rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur'

Você pode notar que o primeiro elemento é retornado com o primeiro () método.

4. pegar()

Tome () Ação em RDD é usada para retornar os valores n do topo do RDD fornecido. É preciso um parâmetro - n. Onde se refere a um número inteiro que especifica o número de elementos para retornar do RDD.

Sintaxe:

Rdd_data.levado)

Parâmetro:

n- refere-se a um número inteiro que especifica o número de elementos para retornar do RDD.

Exemplo:

Neste exemplo, veremos como executar a ação Take () no RDD dos alunos retornando apenas 2 valores.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = spark_app.SparkContext.paralelize (['rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']))
#Perform tome medidas para devolver apenas as 2 principais linhas
Imprimir (alunos.levar (2))
Saída:
['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd']

Você pode notar que os 2 primeiros elementos são devolvidos com o método Take ().

5. SAVEASTEXTFILE ()

A ação do SAVETETXTFILE () é usada para armazenar os dados do RDD em um arquivo de texto. Ele toma o nome do arquivo como parâmetro para que o arquivo seja salvo com o nome do arquivo especificado.

Sintaxe:

Rdd_data.SAVEASTEXTFILE ('FILE_NAME.TXT')

Parâmetro:

FILE_NAME - O arquivo é salvo com o nome do arquivo especificado.

Exemplo:

Neste exemplo, veremos como executar a ação do SAVETETXTFILE () no RDD dos alunos armazenando o arquivo.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
# importar rdd do Pyspark.rdd
de Pyspark.RDD Import rdd
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = spark_app.SparkContext.paralelize (['rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']))
#PerformEform SaveStextFile () Action para salvar RDD no arquivo de texto.
alunos.SAVEASTEXTFILE ('estudantes_file.TXT')

Saída:

Você pode ver que os alunos_File começam a baixar.

Conclusão

Neste tutorial Pyspark, você vê o que é um RDD e como executar ações diferentes disponíveis em RDD. As ações que são executadas no RDD são: count () para retornar o número total de elementos no RDD, colecionar () para retornar os valores presentes no RDD, primeiro () e no Take () para retornar o primeiro valor do valor e o SAVETEXTFILE () Para salvar o RDD em um arquivo de texto.