Diferentes maneiras de criar dados de dados Pyspark

Diferentes maneiras de criar dados de dados Pyspark

No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Neste artigo, discutiremos várias maneiras de criar dados de dados Pyspark.

Método 1: Usando o dicionário

Dicionário é umaestrutura de dados que armazenará os dados no formato do par de chaves, valores.

A chave atua como coluna e valor atuam como valor/dados de linha no pyspark dataframe. Isso tem que ser passado dentro da lista.

Estrutura:

['valor chave]

Também podemos fornecer vários dicionários.

Estrutura:

['key': value, 'key': value,… .,'valor chave]

Exemplo:

Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas através do dicionário. Finalmente, estamos exibindo o método DataFrame usando Show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O DataFrame
df.mostrar()

Saída:

Método 2: Usando a lista de tuplas

A tupla é uma estrutura de dados que armazenará os dados em ().

Podemos passar as fileiras separadas por vírgula em uma tupla cercada por uma lista.

Estrutura:

[(Value1, Value2,.,valuen)]

Também podemos fornecer várias tuplas em uma lista.

Estrutura:

[(Value1, Value2,.,valuen), (valor1, valor2,.,valuen),…, (valor1, valor2,.,valuen)]

Precisamos fornecer os nomes das colunas através de uma lista enquanto criava o DataFrame.

Sintaxe:

column_names = ['column1', 'column2',… .'coluna']
Spark_App.CreatedataFrame (list_of_tuple, column_names)

Exemplo:

Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas através do dicionário. Finalmente, estamos exibindo o método DataFrame usando Show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = [('001', 'sravan', 23,5.79,67, 'Guntur'),
('002', 'ojaswi', 16,3.79,34, 'Hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
('004', 'rohith', 9,3.69,28, 'Hyd'),
('005', 'sridevi', 37,5.59,54, 'Hyd')]
#Assign os nomes das colunas
column_names = ['rollno', 'nome', 'idade', 'altura', 'peso', 'endereço']
# Crie o DataFrame
df = spark_app.CreatedataFrame (alunos, column_names)
#Display O DataFrame
df.mostrar()

Saída:

Método 3: Usando a tupla de listas

A lista é uma estrutura de dados que armazenará os dados em [].

Podemos passar as fileiras separadas por vírgula em uma lista cercada por uma tupla.

Estrutura:

([valor1, valor2,.,valuen])

Também podemos fornecer várias listas em uma tupla.

Estrutura:

([valor1, valor2,.,valuen], [value1, value2,.,valuen],…, [valor1, valor2,.,valuen])

Precisamos fornecer os nomes das colunas através de uma lista enquanto criava o DataFrame.

Sintaxe:

column_names = ['column1', 'column2',… .'coluna']
Spark_App.Createdataframe (tuple_of_list, column_names)

Exemplo:

Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas através do dicionário. Finalmente, estamos exibindo o método DataFrame usando Show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = (['001', 'sravan', 23,5.79,67, 'Guntur'],
['002', 'ojaswi', 16,3.79,34, 'Hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'rohith', 9,3.69,28, 'Hyd'],
['005', 'Sridevi', 37,5.59,54, 'Hyd'])
#Assign os nomes das colunas
column_names = ['rollno', 'nome', 'idade', 'altura', 'peso', 'endereço']
# Crie o DataFrame
df = spark_app.CreatedataFrame (alunos, column_names)
#Display O DataFrame
df.mostrar()

Saída:

Método 4: Usando a lista aninhada

A lista é umaestrutura de dados que armazenará os dados em [].

Então, podemos passar as linhas separadas por vírgula em uma lista cercada por uma lista.

Estrutura:

[[valor1, valor2,.,valuen]]

Também podemos fornecer várias listas em uma lista.

Estrutura:

[[valor1, valor2,.,valuen], [value1, value2,.,valuen],…, [valor1, valor2,.,valuen]]

Precisamos fornecer os nomes das colunas através de uma lista enquanto criava o DataFrame.

Sintaxe:

column_names = ['column1', 'column2',… .'coluna']
Spark_App.CreatedataFrame (NETED_LIST, COLUNN_NAMES)

Exemplo:

Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas através do dicionário. Finalmente, estamos exibindo o método DataFrame usando Show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes = [['001', 'sravan', 23,5.79,67, 'Guntur'],
['002', 'ojaswi', 16,3.79,34, 'Hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'rohith', 9,3.69,28, 'Hyd'],
['005', 'Sridevi', 37,5.59,54, 'Hyd']]
#Assign os nomes das colunas
column_names = ['rollno', 'nome', 'idade', 'altura', 'peso', 'endereço']
# Crie o DataFrame
df = spark_app.CreatedataFrame (alunos, column_names)
#Display O DataFrame
df.mostrar()

Saída:

Método 5: Usando tupla aninhada

Estrutura:

((valor1, valor2,.,valuen))

Também podemos fornecer várias tuplas em uma tupla.

Estrutura:

((valor1, valor2,.,valuen), (valor1, valor2,.,valuen),…, (valor1, valor2,.,valuen))

Precisamos fornecer os nomes das colunas através de uma lista enquanto criava o DataFrame.

Sintaxe:

column_names = ['column1', 'column2',… .'coluna']
Spark_App.CreatedAtAframe (nested_tuple, column_names)

Exemplo:

Aqui, vamos criar dados de dados Pyspark com 5 linhas e 6 colunas através do dicionário. Finalmente, estamos exibindo o método DataFrame usando Show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
estudantes = (('001', 'sravan', 23,5.79,67, 'Guntur'),
('002', 'ojaswi', 16,3.79,34, 'Hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
('004', 'rohith', 9,3.69,28, 'Hyd'),
('005', 'sridevi', 37,5.59,54, 'Hyd'))
#Assign os nomes das colunas
column_names = ['rollno', 'nome', 'idade', 'altura', 'peso', 'endereço']
# Crie o DataFrame
df = spark_app.CreatedataFrame (alunos, column_names)
#Display O DataFrame
df.mostrar()

Saída:

Conclusão

Neste tutorial, discutimos cinco métodos para criar dados de dados Pyspark: lista de tuplas, tupla de listas, tupla aninhada, uso de lista aninhada e lista de colunas para fornecer nomes de colunas. Não há necessidade de fornecer a lista de nomes das colunas enquanto criava dados de dados Pyspark usando o dicionário.