Converta o quadro de dados Pyspark em pandas dados

Converta o quadro de dados Pyspark em pandas dados

No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Ele fornece os vários métodos para devolver as linhas superiores do quadro de dados Pyspark.

Pandas é um módulo usado para análise de dados. Ele suporta três estruturas de dados - Série, DataFrame e painel. Podemos converter o quadro de dados do Pyspark para o Pandas DataFrame assim que tivermos o quadro de dados Pyspark.

Vamos criar o DataFrame de Pyspark primeiro.

Exemplo:

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# quadro de dados
df.mostrar()

Saída:

toPandas () é um método que converterá o Pyspark DataFrame para o Pandas Dataframe.

Sintaxe:

quadro de dados.topenda ()

onde dataframe é o pyspark dataframe de entrada.

Exemplo:

Neste exemplo, estamos convertendo acima do pyspark DataFrame para pandas dataframe.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Convert para Pandas Dataframe
Imprimir (df.topandas ())

Saída:

Podemos iterar o quadro de dados através do iterrows () convertendo Pyspark para pandas.

iterrows ()

Este método é usado para iterar as colunas no quadro de dados Pyspark dado, convertendo -se em pandas dataframe, ele pode ser usado com loop e leva nomes de colunas através do iterador de linha e indexados para as colunas iteradas. Finalmente, ele exibirá as linhas de acordo com os índices especificados.

Sintaxe:

Para índice, Row_iterator no DataFrame.topenda ().iterrows ():
print (row_iterator [index_value],…)

Onde:

  1. DataFrame é a entrada Pyspark DataFrame.
  2. index_value é a posição do índice da coluna no pyspark DataFrame.
  3. Row_iterator é a variável iteradora usada para iterar os valores de linha na coluna especificada.

Exemplo 1:

Neste exemplo, estamos iterando linhas a partir do endereço e colunas de altura do quadro de dados Pyspark acima.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#iterate Endereço e colunas de altura
Para índice, Row_iterator em DF.topenda ().iterrows ():
print (row_iterator [0], row_iterator [1])

Saída:

Guntur 23
HYD 16
Patna 7
Hyd 9
Hyd 37

Exemplo 2:

Neste exemplo, estamos iterando linhas do endereço e colunas de nome do quadro de dados Pyspark acima.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#iterate Endereço e colunas de nome
Para índice, Row_iterator em DF.topenda ().iterrows ():
print (row_iterator [0], row_iterator [3])

Saída:

Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi

Conclusão

Neste tutorial, discutimos a conversão de dados de dados Pyspark em pandasframe de dados usando o método topandas () e iterado o método Pandas DataFrame usando o iterrows ().