Exibir linhas superiores do pyspark DataFrame

No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Ele fornece os vários métodos para devolver as linhas superiores do quadro de dados Pyspark. Forneceremos exemplos para as 5 maneiras de exibir as principais linhas do Pyspark:

Pyspark - Show ()
Pyspark - colecionar ()
Pyspark - Take ()
Pyspark - primeiro ()
Pyspark - Head ()

Pyspark - Show ()

É usado para exibir as linhas superiores ou todo o quadro de dados em um formato tabular.

Sintaxe:

quadro de dados.show (n, vertical, truncado)

Onde, DataFrame é a entrada Pyspark DataFrame.

Parâmetros:

n é o primeiro parâmetro opcional que representa um valor inteiro para obter as linhas superiores no quadro de dados e n representa o número de linhas superiores a serem exibidas. Por padrão, ele exibirá todas as linhas do DataFrame
O parâmetro vertical leva os valores booleanos que são usados para exibir o quadro de dados no parâmetro vertical quando está definido como true. e exibir o quadro de dados em formato horizontal quando está definido como false. Por padrão, ele será exibido em formato horizontal
Truncado é usado para obter o número de caracteres de cada valor no quadro de dados. Será preciso um número inteiro como alguns personagens a serem exibidos. Por padrão, ele exibirá todos os personagens.

Exemplo 1:

Neste exemplo, criaremos um pyspark DataFrame com 5 linhas e 6 colunas e exibiremos o DataFrame usando o método show () sem parâmetros. Portanto, isso resulta em quadro de dados tabulares exibindo todos os valores no DataFrame

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# quadro de dados
df.mostrar()

Saída:

Exemplo 2:

Neste exemplo, criaremos um pyspark DataFrame com 5 linhas e 6 colunas e exibiremos o DataFrame usando o método show () com n parâmetro. Definimos o valor n para 4 para exibir as 4 principais linhas do DataFrame. Portanto, isso resulta em um quadro de dados tabular, exibindo 4 valores no DataFrame.

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Obtenha as 4 principais linhas no quadro de dados
df.show (4)

Saída:

Pyspark - colecionar ()

Collect () Método no Pyspark é usado para exibir os dados presentes na linha de dados de quadro por linha do topo.

Sintaxe:

quadro de dados.colecionar ()

Exemplo:

Vamos exibir todo o método de DataFrame com colecionamento ()

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54)]

Pyspark - Take ()

É usado para exibir as linhas superiores ou todo o quadro de dados.

Sintaxe:

quadro de dados.levado)

Onde, DataFrame é a entrada Pyspark DataFrame.

Parâmetros:

n é o parâmetro necessário que representa o valor inteiro para obter as linhas superiores no quadro de dados.

Exemplo 1:

Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 3 linhas do DataFrame usando o método Take (). Então, isso resulta das 3 principais linhas do DataFrame.

Saída:

Exemplo 2:

Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 3 linhas do DataFrame usando o método Take (). Então, isso resulta da 1 linha superior do DataFrame.

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]

Pyspark - primeiro ()

É usado para exibir as linhas superiores ou todo o quadro de dados.

Sintaxe:

quadro de dados.primeiro()

Onde, DataFrame é a entrada Pyspark DataFrame.

Parâmetros:

Não levará parâmetros.

Exemplo:

Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 1 linha do DataFrame usando o método First (). Então, isso resulta apenas primeira linha.

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]

Pyspark - Head ()

É usado para exibir as linhas superiores ou todo o quadro de dados.

Sintaxe:

quadro de dados.cabeça (n)

Onde, DataFrame é a entrada Pyspark DataFrame.

Parâmetros:

n é o parâmetro opcional que representa o valor inteiro para obter as linhas superiores no quadro de dados e n representa o número de linhas superiores a serem exibidas. Por padrão, ele exibirá a primeira linha do DataFrame, se n não for especificado.

Exemplo 1:

Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 3 linhas do DataFrame usando o método Head (). Então, isso resulta em 3 melhores linhas do DataFrame.

Saída:

Exemplo 2:

Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 1 linha do DataFrame usando o método Head (). Então, isso resulta em 1 linha superior do DataFrame.

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]

Conclusão

Neste tutorial, discutimos como obter as principais linhas do quadro de dados Pyspark usando show (), colecionar (). Take (), Head () e First () métodos. Percebemos que o método show () retornará as linhas superiores em um formato tabular e os métodos restantes retornarão a linha por linha.

Pitão

Etiquetas do eixo marítimo

Os “eixos.função set () ”, funções da biblioteca matplotlib ou as funções“ set_xlabel () ”e“ set_yla...

Salvatore Watsica

Pitão

Python nem todos os argumentos convertidos durante a formatação da string

Este erro pode ser corrigido corrigindo a sintaxe do operador %, usando a função format () em vez do...

Tommie Konopelski

Como criar um quadro de dados vazio r

Tutorial sobre as várias abordagens para criar um quadro de dados vazio usando os dados.Frame () Fun...

Tommie Konopelski