PYSPARK - PANDAS DATAFRAME, MAHES, NDIM e DTYPES

PYSPARK - PANDAS DATAFRAME, MAHES, NDIM e DTYPES
“No Python, o Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame, que armazenará os dados fornecidos no formato de linha e coluna.

PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.

Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.

Antes disso, você deve instalar o módulo Pyspark.”

Comando

pip install pyspark

Sintaxe para importar

De Pyspark Import pandas

Depois disso, podemos criar ou usar o quadro de dados do módulo pandas.

Sintaxe para criar dados de dados de pandas

Pyspark.Pandas.Quadro de dados()

Podemos passar um dicionário ou lista de listas com valores.

Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#mostrar
Imprimir (Pyspark_pandas)

Saída

Agora, entraremos em nosso tutorial.

Vamos vê -los um por um.

Pyspark - Pandas DataFrame: Shape ()

Pyspark.Pandas.Quadro de dados.forma()

Shape () em Pyspark Pandas Dataframe é usado para retornar o número de linhas e o número de colunas em uma tupla.

O primeiro valor na tupla representa o número de linhas, e o segundo valor representa o número de colunas.

Sintaxe

Pyspark_pandas.forma

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Se você deseja retornar apenas o número total de linhas ou colunas, você pode obtê -lo usando a posição do índice.

Sintaxe
Retornar o número total de linhas

Pyspark_pandas.forma [0]

Retornar o número total de coluna

Pyspark_pandas.forma [1]

Exemplo
Neste exemplo, veremos quantas linhas e colunas existem no Pyspark Pandas Dataframe.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#obtenha a forma
Print ("Total de linhas e colunas:", Pyspark_pandas.forma)
#Obtenha apenas o número total de linhas
Print ("Total de linhas:", Pyspark_pandas.forma [0])
#Obtenha apenas o número total de colunas
Print ("Total Colunas:", Pyspark_pandas.forma [1])

Saída

Total de linhas e colunas: (5, 4)
Total de linhas: 5
Total de colunas: 4

Podemos ver que o total de linhas e colunas foram devolvidas.

Pyspark - Pandas DataFrame: Axes ()

Pyspark.Pandas.Quadro de dados.eixos()

Os eixos () no Pyspark Pandas Dataframe é usado para retornar os nomes de linhas e colunas em uma lista.

O primeiro valor na lista representa os nomes das linhas, e o segundo valor representa os nomes das colunas.

Sintaxe

Pyspark_pandas.eixos

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Se você quiser retornar apenas as linhas ou colunas, você pode obtê -lo usando a posição do índice.

Sintaxe

Nomes de linhas de retorno

Pyspark_pandas.Eixos [0]

Retornar nomes de colunas

Pyspark_pandas.Eixos [1]

Exemplo
Neste exemplo, veremos as linhas e colunas que existem no quadro de dados do Pyspark Pandas acima.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#obtenha todos os eixos
Imprimir (Pyspark_pandas.eixos)
#Obtenha os eixos da linha
Print ("Nomes de linha:", Pyspark_pandas.eixos [0])
#Obtenha os eixos da coluna
Print ("Nomes de colunas:", Pyspark_pandas.eixos [1])

Saída

[Int64Index ([0, 1, 2, 3, 4], dtype = "int64"), índice (['student_lastname', 'mark1', 'mark2', 'mark3'], dtype = "objeto")]]
Nomes de linha: Int64Index ([0, 1, 2, 3, 4], Dtype = "Int64")
Nomes de colunas: index (['student_lastname', 'mark1', 'mark2', 'mark3'], dtype = "objeto")

Podemos ver que os nomes de linha e colunas foram devolvidos.

Pyspark - Pandas DataFrame: ndim ()

Pyspark.Pandas.Quadro de dados.ndim ()

ndim () no pyspark pandframe é usado para retornar as dimensões totais. Aqui, o Pyspark Pandas Dataframe contém duas dimensões - linha e coluna. Então vai retornar 2.

Sintaxe

Pyspark_pandas.ndim

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo
Neste exemplo, obteremos as dimensões totais do Pyspark Pandas Dataframe.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#obtenha as dimensões
Imprimir (Pyspark_pandas.ndim)

Saída

2

Pyspark - Pandas DataFrame: Dtypes ()

Pyspark.Pandas.Quadro de dados.dtypes ()

Dtypes () no Pyspark Pandas Dataframe é usado para retornar os tipos de dados para todas as colunas

Sintaxe

Pyspark_pandas.dtypes

Onde Pyspark_pandas é o Pyspark Pandas Dataframe.

Exemplo
Neste exemplo, obteremos os tipos de dados do Pyspark Pandas Dataframe.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Obtenha os tipos de dados de todas as colunas
Imprimir (Pyspark_pandas.dtypes)

Saída

Student_lastName Objeto
Mark1 Int64
Mark2 Int64
Mark3 Int64
dtype: objeto

Também é possível obter o tipo de dados de uma única coluna.

Sintaxe

Pyspark_pandas.coluna.dtypes

Onde a coluna é o nome da coluna

Exemplo
Neste exemplo, obteremos os tipos de dados da coluna Student_lastName e Mark1.

#import pandas do módulo Pyspark
De Pyspark Import pandas
#Crie DataFrame de pandas Pyspark
Pyspark_pandas = pandas.Dataframe ('student_lastname': ['manasa', 'chamundi', 'lehara', 'kapila', 'hyna'], 'mark1': [90,78,90,54,67], 'mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Get o tipo de dados da coluna Student_lastName
Imprimir (Pyspark_pandas.Student_lastName.dtypes)
#Obtenha o tipo de dados da coluna Mark1
Imprimir (Pyspark_pandas.Mark1.dtypes)

Saída

objeto
Int64

Conclusão

Neste tutorial Pyspark Pandas Dataframe, vimos métodos diferentes para obter as informações do quadro de dados.

  1. A forma é usada para retornar o tamanho do quadro de dados Pyspark Pandas.
  2. eixos são usados ​​para retornar os nomes de linhas e colunas.
  3. O NDIM retornará um número total de dimensões no quadro de dados do Pyspark Pandas.
  4. dtypes retornam todos os tipos de dados da coluna.