Pyspark - Colete

No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Collect () Método no Pyspark Exibe os dados presentes na linha DataFrame por linha.

Sintaxe:

Quadro de dados.colecionar ()

Exemplo:

Neste exemplo, criaremos um pyspark DataFrame com 6 colunas e 5 linhas e exibiremos o quadro de dados em um formato tabular usando o método show ().

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# quadro de dados
df.mostrar()

Saída:

Exemplo 2:

Vamos exibir o quadro de dados usando o método collect ()

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54)]

Também podemos usar para loop with collect () para iterar a linha por linha

Sintaxe:

para o iterador no DataFrame.colecion ():
Imprimir (iterador)

Para exibir colunas específicas, precisamos especificar o nome da coluna com o ITERATOR usando [] Operator

Sintaxe:

para o iterador no DataFrame.colecion ():
print (iterator ['column1'], iterator ['column2'],… .)

Exemplo:

Este exemplo iterará várias colunas em um método coletor ().

Saída:

Sravan
Ojaswi
Gnanesh Chowdary
Rohith
Sridevi
------------------------------------
Sravan 67
Ojaswi 34
Gnanesh Chowdary 17
Rohith 28
Sridevi 54
------------------------------------
Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34)
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17)
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28)
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54)

Também podemos obter a linha específica usando o método collect () usando um índice.

No Pyspark DataFrame, a indexação começa em 0.

Sintaxe:

Quadro de dados.colecion () [row_index]

Exemplo:

Neste exemplo, estamos coletando primeiro, segundo e quinta linhas.

Saída:

Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34)
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54)

Também podemos obter a coluna específica em uma linha usando o método collect () usando um índice.

No Pyspark DataFrame, a indexação começa em 0.

Sintaxe:

Quadro de dados.colecion () [Row_index] [Column_index]

Exemplo:

Neste exemplo, obteremos valores da primeira linha - primeira coluna, terceira linha - primeira coluna

Saída:

Guntur
Patna

Conclusão

Neste artigo, abordamos o uso do método collect () com diferentes cenários. Finalmente, entendemos que o método collect () é usado para obter a linha de dados por linha no quadro de dados Pyspark.

Pitão

Pandas Read_CSV multiprocessamento

Para melhorar a velocidade de carregamento de dados, incluindo seus benefícios e limitações, o “PD.A...

Carl Hintz DDS

Docker

Qual é o objetivo de um docker-compor.Arquivo YML no Docker?

O principal objetivo de um “Docker-Compose.O arquivo YML ”é para simplificar o processo de implantaç...

Shaun Bogan

Windows OS

Qual é a diferença entre o Windows Top 10 Home e Pro

A versão Pro é para usuários profissionais e possui mais ferramentas administrativas, enquanto a ver...

Evan Mueller