No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Neste artigo, discutiremos várias maneiras de criar dados de dados Pyspark.
Método 1: Usando o dicionário
Dicionário é umaestrutura de dados que armazenará os dados no formato do par de chaves, valores.
A chave atua como coluna e valor atuam como valor/dados de linha no pyspark dataframe. Isso tem que ser passado dentro da lista.
Estrutura:
['valor chave]
Também podemos fornecer vários dicionários.
Estrutura:
['key': value, 'key': value,… .,'valor chave]
Exemplo:
Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas através do dicionário. Finalmente, estamos exibindo o método DataFrame usando Show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O DataFrame
df.mostrar()
Saída:
Método 2: Usando a lista de tuplas
A tupla é uma estrutura de dados que armazenará os dados em ().
Podemos passar as fileiras separadas por vírgula em uma tupla cercada por uma lista.
Estrutura:
[(Value1, Value2,.,valuen)]
Também podemos fornecer várias tuplas em uma lista.
Estrutura:
[(Value1, Value2,.,valuen), (valor1, valor2,.,valuen),…, (valor1, valor2,.,valuen)]
Precisamos fornecer os nomes das colunas através de uma lista enquanto criava o DataFrame.
Sintaxe:
column_names = ['column1', 'column2',… .'coluna']
Spark_App.CreatedataFrame (list_of_tuple, column_names)
Exemplo:
Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas através do dicionário. Finalmente, estamos exibindo o método DataFrame usando Show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [('001', 'sravan', 23,5.79,67, 'Guntur'),
('002', 'ojaswi', 16,3.79,34, 'Hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
('004', 'rohith', 9,3.69,28, 'Hyd'),
('005', 'sridevi', 37,5.59,54, 'Hyd')]
#Assign os nomes das colunas
column_names = ['rollno', 'nome', 'idade', 'altura', 'peso', 'endereço']
# Crie o DataFrame
df = spark_app.CreatedataFrame (alunos, column_names)
#Display O DataFrame
df.mostrar()
Saída:
Método 3: Usando a tupla de listas
A lista é uma estrutura de dados que armazenará os dados em [].
Podemos passar as fileiras separadas por vírgula em uma lista cercada por uma tupla.
Estrutura:
([valor1, valor2,.,valuen])
Também podemos fornecer várias listas em uma tupla.
Estrutura:
([valor1, valor2,.,valuen], [value1, value2,.,valuen],…, [valor1, valor2,.,valuen])
Precisamos fornecer os nomes das colunas através de uma lista enquanto criava o DataFrame.
Sintaxe:
column_names = ['column1', 'column2',… .'coluna']
Spark_App.Createdataframe (tuple_of_list, column_names)
Exemplo:
Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas através do dicionário. Finalmente, estamos exibindo o método DataFrame usando Show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = (['001', 'sravan', 23,5.79,67, 'Guntur'],
['002', 'ojaswi', 16,3.79,34, 'Hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'rohith', 9,3.69,28, 'Hyd'],
['005', 'Sridevi', 37,5.59,54, 'Hyd'])
#Assign os nomes das colunas
column_names = ['rollno', 'nome', 'idade', 'altura', 'peso', 'endereço']
# Crie o DataFrame
df = spark_app.CreatedataFrame (alunos, column_names)
#Display O DataFrame
df.mostrar()
Saída:
Método 4: Usando a lista aninhada
A lista é umaestrutura de dados que armazenará os dados em [].
Então, podemos passar as linhas separadas por vírgula em uma lista cercada por uma lista.
Estrutura:
[[valor1, valor2,.,valuen]]
Também podemos fornecer várias listas em uma lista.
Estrutura:
[[valor1, valor2,.,valuen], [value1, value2,.,valuen],…, [valor1, valor2,.,valuen]]
Precisamos fornecer os nomes das colunas através de uma lista enquanto criava o DataFrame.
Sintaxe:
column_names = ['column1', 'column2',… .'coluna']
Spark_App.CreatedataFrame (NETED_LIST, COLUNN_NAMES)
Exemplo:
Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas através do dicionário. Finalmente, estamos exibindo o método DataFrame usando Show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes = [['001', 'sravan', 23,5.79,67, 'Guntur'],
['002', 'ojaswi', 16,3.79,34, 'Hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'rohith', 9,3.69,28, 'Hyd'],
['005', 'Sridevi', 37,5.59,54, 'Hyd']]
#Assign os nomes das colunas
column_names = ['rollno', 'nome', 'idade', 'altura', 'peso', 'endereço']
# Crie o DataFrame
df = spark_app.CreatedataFrame (alunos, column_names)
#Display O DataFrame
df.mostrar()
Saída:
Método 5: Usando tupla aninhada
Estrutura:
((valor1, valor2,.,valuen))
Também podemos fornecer várias tuplas em uma tupla.
Estrutura:
((valor1, valor2,.,valuen), (valor1, valor2,.,valuen),…, (valor1, valor2,.,valuen))
Precisamos fornecer os nomes das colunas através de uma lista enquanto criava o DataFrame.
Sintaxe:
column_names = ['column1', 'column2',… .'coluna']
Spark_App.CreatedAtAframe (nested_tuple, column_names)
Exemplo:
Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas através do dicionário. Finalmente, estamos exibindo o método DataFrame usando Show ().
#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes = (('001', 'sravan', 23,5.79,67, 'Guntur'),
('002', 'ojaswi', 16,3.79,34, 'Hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
('004', 'rohith', 9,3.69,28, 'Hyd'),
('005', 'sridevi', 37,5.59,54, 'Hyd'))
#Assign os nomes das colunas
column_names = ['rollno', 'nome', 'idade', 'altura', 'peso', 'endereço']
# Crie o DataFrame
df = spark_app.CreatedataFrame (alunos, column_names)
#Display O DataFrame
df.mostrar()
Saída:
Conclusão
Neste tutorial, discutimos cinco métodos para criar dados de dados Pyspark: lista de tuplas, tupla de listas, tupla aninhada, uso de lista aninhada e lista de colunas para fornecer nomes de colunas. Não há necessidade de fornecer a lista de nomes das colunas enquanto criava dados de dados Pyspark usando o dicionário.