Exibir linhas superiores do pyspark DataFrame

Exibir linhas superiores do pyspark DataFrame
No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Ele fornece os vários métodos para devolver as linhas superiores do quadro de dados Pyspark. Forneceremos exemplos para as 5 maneiras de exibir as principais linhas do Pyspark:
  1. Pyspark - Show ()
  2. Pyspark - colecionar ()
  3. Pyspark - Take ()
  4. Pyspark - primeiro ()
  5. Pyspark - Head ()

Pyspark - Show ()

É usado para exibir as linhas superiores ou todo o quadro de dados em um formato tabular.

Sintaxe:

quadro de dados.show (n, vertical, truncado)

Onde, DataFrame é a entrada Pyspark DataFrame.

Parâmetros:

  1. n é o primeiro parâmetro opcional que representa um valor inteiro para obter as linhas superiores no quadro de dados e n representa o número de linhas superiores a serem exibidas. Por padrão, ele exibirá todas as linhas do DataFrame
  2. O parâmetro vertical leva os valores booleanos que são usados ​​para exibir o quadro de dados no parâmetro vertical quando está definido como true. e exibir o quadro de dados em formato horizontal quando está definido como false. Por padrão, ele será exibido em formato horizontal
  3. Truncado é usado para obter o número de caracteres de cada valor no quadro de dados. Será preciso um número inteiro como alguns personagens a serem exibidos. Por padrão, ele exibirá todos os personagens.

Exemplo 1:

Neste exemplo, criaremos um pyspark DataFrame com 5 linhas e 6 colunas e exibiremos o DataFrame usando o método show () sem parâmetros. Portanto, isso resulta em quadro de dados tabulares exibindo todos os valores no DataFrame

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# quadro de dados
df.mostrar()

Saída:

Exemplo 2:

Neste exemplo, criaremos um pyspark DataFrame com 5 linhas e 6 colunas e exibiremos o DataFrame usando o método show () com n parâmetro. Definimos o valor n para 4 para exibir as 4 principais linhas do DataFrame. Portanto, isso resulta em um quadro de dados tabular, exibindo 4 valores no DataFrame.

#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Obtenha as 4 principais linhas no quadro de dados
df.show (4)

Saída:

Pyspark - colecionar ()

Collect () Método no Pyspark é usado para exibir os dados presentes na linha de dados de quadro por linha do topo.

Sintaxe:

quadro de dados.colecionar ()

Exemplo:

Vamos exibir todo o método de DataFrame com colecionamento ()

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Mostrar
df.colecionar ()

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54)]

Pyspark - Take ()

É usado para exibir as linhas superiores ou todo o quadro de dados.

Sintaxe:

quadro de dados.levado)

Onde, DataFrame é a entrada Pyspark DataFrame.

Parâmetros:

n é o parâmetro necessário que representa o valor inteiro para obter as linhas superiores no quadro de dados.

Exemplo 1:

Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 3 linhas do DataFrame usando o método Take (). Então, isso resulta das 3 principais linhas do DataFrame.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Exibir as 3 principais linhas do DataFrame
df.levar (3)

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]

Exemplo 2:

Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 3 linhas do DataFrame usando o método Take (). Então, isso resulta da 1 linha superior do DataFrame.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Exibir 1 Linha superior do DataFrame
df.levar (1)

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]

Pyspark - primeiro ()

É usado para exibir as linhas superiores ou todo o quadro de dados.

Sintaxe:

quadro de dados.primeiro()

Onde, DataFrame é a entrada Pyspark DataFrame.

Parâmetros:

  • Não levará parâmetros.

Exemplo:

Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 1 linha do DataFrame usando o método First (). Então, isso resulta apenas primeira linha.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Exibir 1 Linha superior do DataFrame
df.primeiro (1)

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]

Pyspark - Head ()

É usado para exibir as linhas superiores ou todo o quadro de dados.

Sintaxe:

quadro de dados.cabeça (n)

Onde, DataFrame é a entrada Pyspark DataFrame.

Parâmetros:

n é o parâmetro opcional que representa o valor inteiro para obter as linhas superiores no quadro de dados e n representa o número de linhas superiores a serem exibidas. Por padrão, ele exibirá a primeira linha do DataFrame, se n não for especificado.

Exemplo 1:

Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 3 linhas do DataFrame usando o método Head (). Então, isso resulta em 3 melhores linhas do DataFrame.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Exibir as 3 principais linhas do DataFrame
df.cabeça (3)

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]

Exemplo 2:

Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 1 linha do DataFrame usando o método Head (). Então, isso resulta em 1 linha superior do DataFrame.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Exibir 1 Linha superior do DataFrame
df.cabeça (1)

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]

Conclusão

Neste tutorial, discutimos como obter as principais linhas do quadro de dados Pyspark usando show (), colecionar (). Take (), Head () e First () métodos. Percebemos que o método show () retornará as linhas superiores em um formato tabular e os métodos restantes retornarão a linha por linha.