No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Ele fornece os vários métodos para devolver as linhas superiores do quadro de dados Pyspark. Forneceremos exemplos para as 5 maneiras de exibir as principais linhas do Pyspark:
- Pyspark - Show ()
- Pyspark - colecionar ()
- Pyspark - Take ()
- Pyspark - primeiro ()
- Pyspark - Head ()
Pyspark - Show ()
É usado para exibir as linhas superiores ou todo o quadro de dados em um formato tabular.
Sintaxe:
quadro de dados.show (n, vertical, truncado)
Onde, DataFrame é a entrada Pyspark DataFrame.
Parâmetros:
- n é o primeiro parâmetro opcional que representa um valor inteiro para obter as linhas superiores no quadro de dados e n representa o número de linhas superiores a serem exibidas. Por padrão, ele exibirá todas as linhas do DataFrame
- O parâmetro vertical leva os valores booleanos que são usados para exibir o quadro de dados no parâmetro vertical quando está definido como true. e exibir o quadro de dados em formato horizontal quando está definido como false. Por padrão, ele será exibido em formato horizontal
- Truncado é usado para obter o número de caracteres de cada valor no quadro de dados. Será preciso um número inteiro como alguns personagens a serem exibidos. Por padrão, ele exibirá todos os personagens.
Exemplo 1:
Neste exemplo, criaremos um pyspark DataFrame com 5 linhas e 6 colunas e exibiremos o DataFrame usando o método show () sem parâmetros. Portanto, isso resulta em quadro de dados tabulares exibindo todos os valores no DataFrame
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# quadro de dados
df.mostrar()
Saída:
Exemplo 2:
Neste exemplo, criaremos um pyspark DataFrame com 5 linhas e 6 colunas e exibiremos o DataFrame usando o método show () com n parâmetro. Definimos o valor n para 4 para exibir as 4 principais linhas do DataFrame. Portanto, isso resulta em um quadro de dados tabular, exibindo 4 valores no DataFrame.
#import o módulo PysPaprk
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Obtenha as 4 principais linhas no quadro de dados
df.show (4)
Saída:
Pyspark - colecionar ()
Collect () Método no Pyspark é usado para exibir os dados presentes na linha de dados de quadro por linha do topo.
Sintaxe:
quadro de dados.colecionar ()
Exemplo:
Vamos exibir todo o método de DataFrame com colecionamento ()
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Mostrar
df.colecionar ()
Saída:
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'gnanesh Chowdary', rollno = '003', peso = 17),
Linha (endereço = 'hyd', idade = 9, altura = 3.69, nome = 'rohith', rollno = '004', peso = 28),
Linha (endereço = 'hyd', idade = 37, altura = 5.59, nome = 'sridevi', rollno = '005', peso = 54)]
Pyspark - Take ()
É usado para exibir as linhas superiores ou todo o quadro de dados.
Sintaxe:
quadro de dados.levado)
Onde, DataFrame é a entrada Pyspark DataFrame.
Parâmetros:
n é o parâmetro necessário que representa o valor inteiro para obter as linhas superiores no quadro de dados.
Exemplo 1:
Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 3 linhas do DataFrame usando o método Take (). Então, isso resulta das 3 principais linhas do DataFrame.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Exibir as 3 principais linhas do DataFrame
df.levar (3)
Saída:
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
Exemplo 2:
Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 3 linhas do DataFrame usando o método Take (). Então, isso resulta da 1 linha superior do DataFrame.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Exibir 1 Linha superior do DataFrame
df.levar (1)
Saída:
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
Pyspark - primeiro ()
É usado para exibir as linhas superiores ou todo o quadro de dados.
Sintaxe:
quadro de dados.primeiro()
Onde, DataFrame é a entrada Pyspark DataFrame.
Parâmetros:
Exemplo:
Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 1 linha do DataFrame usando o método First (). Então, isso resulta apenas primeira linha.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Exibir 1 Linha superior do DataFrame
df.primeiro (1)
Saída:
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
Pyspark - Head ()
É usado para exibir as linhas superiores ou todo o quadro de dados.
Sintaxe:
quadro de dados.cabeça (n)
Onde, DataFrame é a entrada Pyspark DataFrame.
Parâmetros:
n é o parâmetro opcional que representa o valor inteiro para obter as linhas superiores no quadro de dados e n representa o número de linhas superiores a serem exibidas. Por padrão, ele exibirá a primeira linha do DataFrame, se n não for especificado.
Exemplo 1:
Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 3 linhas do DataFrame usando o método Head (). Então, isso resulta em 3 melhores linhas do DataFrame.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Exibir as 3 principais linhas do DataFrame
df.cabeça (3)
Saída:
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67),
Linha (endereço = 'hyd', idade = 16, altura = 3.79, nome = 'ojaswi', rollno = '002', peso = 34),
Linha (endereço = 'patna', idade = 7, altura = 2.79, nome = 'Gnanesh Chowdary', rollno = '003', peso = 17)]
Exemplo 2:
Neste exemplo, criaremos um pyspark Dataframe com 5 linhas e 6 colunas e exibiremos 1 linha do DataFrame usando o método Head (). Então, isso resulta em 1 linha superior do DataFrame.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [
'rollno': '001', 'nome': 'sravan', 'idade': 23,
'Altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16,
'Altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7,
'Altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9,
'Altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37,
'Altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# Exibir 1 Linha superior do DataFrame
df.cabeça (1)
Saída:
[Linha (endereço = 'guntur', idade = 23, altura = 5.79, nome = 'sravan', rollno = '001', peso = 67)]
Conclusão
Neste tutorial, discutimos como obter as principais linhas do quadro de dados Pyspark usando show (), colecionar (). Take (), Head () e First () métodos. Percebemos que o método show () retornará as linhas superiores em um formato tabular e os métodos restantes retornarão a linha por linha.