No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Ele fornece os vários métodos para devolver as linhas superiores do quadro de dados Pyspark.
Pandas é um módulo usado para análise de dados. Ele suporta três estruturas de dados - Série, DataFrame e painel. Podemos converter o quadro de dados do Pyspark para o Pandas DataFrame assim que tivermos o quadro de dados Pyspark.
Vamos criar o DataFrame de Pyspark primeiro.
Exemplo:
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
# quadro de dados
df.mostrar()
Saída:
toPandas () é um método que converterá o Pyspark DataFrame para o Pandas Dataframe.
Sintaxe:
quadro de dados.topenda ()
onde dataframe é o pyspark dataframe de entrada.
Exemplo:
Neste exemplo, estamos convertendo acima do pyspark DataFrame para pandas dataframe.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Convert para Pandas Dataframe
Imprimir (df.topandas ())
Saída:
Podemos iterar o quadro de dados através do iterrows () convertendo Pyspark para pandas.
iterrows ()
Este método é usado para iterar as colunas no quadro de dados Pyspark dado, convertendo -se em pandas dataframe, ele pode ser usado com loop e leva nomes de colunas através do iterador de linha e indexados para as colunas iteradas. Finalmente, ele exibirá as linhas de acordo com os índices especificados.
Sintaxe:
Para índice, Row_iterator no DataFrame.topenda ().iterrows ():
print (row_iterator [index_value],…)
Onde:
- DataFrame é a entrada Pyspark DataFrame.
- index_value é a posição do índice da coluna no pyspark DataFrame.
- Row_iterator é a variável iteradora usada para iterar os valores de linha na coluna especificada.
Exemplo 1:
Neste exemplo, estamos iterando linhas a partir do endereço e colunas de altura do quadro de dados Pyspark acima.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#iterate Endereço e colunas de altura
Para índice, Row_iterator em DF.topenda ().iterrows ():
print (row_iterator [0], row_iterator [1])
Saída:
Guntur 23
HYD 16
Patna 7
Hyd 9
Hyd 37
Exemplo 2:
Neste exemplo, estamos iterando linhas do endereço e colunas de nome do quadro de dados Pyspark acima.
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#import a função col
de Pyspark.SQL.funções Importar col
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#iterate Endereço e colunas de nome
Para índice, Row_iterator em DF.topenda ().iterrows ():
print (row_iterator [0], row_iterator [3])
Saída:
Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi
Conclusão
Neste tutorial, discutimos a conversão de dados de dados Pyspark em pandasframe de dados usando o método topandas () e iterado o método Pandas DataFrame usando o iterrows ().