Obtenha informações sobre dados de dados Pyspark

Obtenha informações sobre dados de dados Pyspark
No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Podemos obter informações sobre dados de dados do Pyspark, como número total de linhas e colunas, estatísticas de dados e tamanho do DataFrame. Vamos criar um quadro de dados Pyspark para demonstração.

Exemplo:
Neste exemplo, criaremos o pyspark DataFrame com 5 linhas e 6 colunas e exibir o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Exibir dataframe
df.mostrar()

Saída:

Cenário 1: Obtenha o número total de linhas

Podemos obter o número total de linhas no quadro de dados Pyspark usando a função count ().

Sintaxe:
quadro de dados.contar()

Onde, DataFrame é a entrada Pyspark DataFrame.

Exemplo:
Neste exemplo, usaremos a função count () para obter o número total de linhas.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Exiba a contagem de linhas
Imprimir (df.contar())

Saída:

5

Cenário 2: Obtenha o número total de colunas

Podemos obter o número total de colunas na função Pyspark DataFrame usando o método de len () com colunas.

O método das colunas retornará todas as colunas em uma lista. Portanto, podemos aplicar a função len () para retornar o número de colunas.

Sintaxe:
Len (DataFrame.colunas)

Onde, DataFrame é a entrada Pyspark DataFrame.

Exemplo:
Neste exemplo, usaremos a função len () para obter o número total de colunas e exibir as colunas usando o método de colunas.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Exiba a contagem de colunas
Imprimir (Len (DF.colunas)))
# Exiba as colunas
Imprimir (df.colunas)

Saída:

6

['endereço', 'idade', 'altura', 'nome', 'rollno', 'peso']

Cenário 3: Obtenha as estatísticas

Podemos obter estatísticas como contagem, média, desvio padrão e valor mínimo e o valor máximo do método Pyspark DataFrame usando ()

Sintaxe:
quadro de dados.descrever()

Onde, DataFrame é a entrada Pyspark DataFrame.

Observação - Não há desvio médio e padrão para valores de tipo de string. Nesse caso, o resultado é nulo.

Exemplo:
Neste exemplo, usaremos a função descreve () para obter as estatísticas.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
df.descrever().mostrar()

Saída:

Da saída acima, o nome é do tipo de string. Portanto, o valor nulo é ocupado para a média e o desvio padrão.

Podemos usar o resumo () para devolver as estatísticas. É semelhante ao método descreve (). Mas isso retornará os valores de faixa de 25%, 50% e 75%.

Exemplo:
Neste exemplo, usaremos a função descreve () para obter as estatísticas.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes1 = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedataFrame (estudantes1)
# Obtenha o resumo
df.resumo().mostrar()

Saída:

Conclusão

Neste artigo, discutimos o uso de funções descreve () e summary (). Eles são usados ​​para retornar as estatísticas do quadro de dados de entrada do Pyspark. Vimos que, usando o método len (), podemos obter o número total de colunas e, usando o método count (), podemos obter o número total de linhas no pyspark dataframe.