PYSPARK - Dados de dados de pandas representa o quadro de dados do pandas, mas mantém o quadro de dados do Pyspark internamente.
Os pandas suportam a estrutura de dados do quadro de dados, e os pandas são importados do módulo Pyspark.
Antes disso, você deve instalar o módulo Pyspark.”
Comando
pip install pysparkSintaxe para importar
De Pyspark Import pandasDepois disso, podemos criar ou usar o quadro de dados do módulo pandas.
Sintaxe para criar dados de dados de pandas
Pyspark.Pandas.Quadro de dados()Podemos passar um dicionário ou lista de listas com valores.
Vamos criar um quadro de dados de pandas através do Pyspark que possui quatro colunas e cinco linhas.
#import pandas do módulo PysparkSaída
Agora, entraremos em nosso tutorial.
Vamos vê -los um por um.
Pyspark - Pandas DataFrame: Shape ()
Pyspark.Pandas.Quadro de dados.forma()Shape () em Pyspark Pandas Dataframe é usado para retornar o número de linhas e o número de colunas em uma tupla.
O primeiro valor na tupla representa o número de linhas, e o segundo valor representa o número de colunas.
Sintaxe
Pyspark_pandas.formaOnde Pyspark_pandas é o Pyspark Pandas Dataframe.
Se você deseja retornar apenas o número total de linhas ou colunas, você pode obtê -lo usando a posição do índice.
Sintaxe
Retornar o número total de linhas
Retornar o número total de coluna
Pyspark_pandas.forma [1]Exemplo
Neste exemplo, veremos quantas linhas e colunas existem no Pyspark Pandas Dataframe.
Saída
Total de linhas e colunas: (5, 4)Podemos ver que o total de linhas e colunas foram devolvidas.
Pyspark - Pandas DataFrame: Axes ()
Pyspark.Pandas.Quadro de dados.eixos()Os eixos () no Pyspark Pandas Dataframe é usado para retornar os nomes de linhas e colunas em uma lista.
O primeiro valor na lista representa os nomes das linhas, e o segundo valor representa os nomes das colunas.
Sintaxe
Pyspark_pandas.eixosOnde Pyspark_pandas é o Pyspark Pandas Dataframe.
Se você quiser retornar apenas as linhas ou colunas, você pode obtê -lo usando a posição do índice.
Sintaxe
Nomes de linhas de retorno
Pyspark_pandas.Eixos [0]Retornar nomes de colunas
Pyspark_pandas.Eixos [1]Exemplo
Neste exemplo, veremos as linhas e colunas que existem no quadro de dados do Pyspark Pandas acima.
Saída
[Int64Index ([0, 1, 2, 3, 4], dtype = "int64"), índice (['student_lastname', 'mark1', 'mark2', 'mark3'], dtype = "objeto")]]Podemos ver que os nomes de linha e colunas foram devolvidos.
Pyspark - Pandas DataFrame: ndim ()
Pyspark.Pandas.Quadro de dados.ndim ()
ndim () no pyspark pandframe é usado para retornar as dimensões totais. Aqui, o Pyspark Pandas Dataframe contém duas dimensões - linha e coluna. Então vai retornar 2.
Sintaxe
Pyspark_pandas.ndimOnde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo
Neste exemplo, obteremos as dimensões totais do Pyspark Pandas Dataframe.
Saída
2Pyspark - Pandas DataFrame: Dtypes ()
Pyspark.Pandas.Quadro de dados.dtypes ()
Dtypes () no Pyspark Pandas Dataframe é usado para retornar os tipos de dados para todas as colunas
Sintaxe
Pyspark_pandas.dtypesOnde Pyspark_pandas é o Pyspark Pandas Dataframe.
Exemplo
Neste exemplo, obteremos os tipos de dados do Pyspark Pandas Dataframe.
Saída
Student_lastName ObjetoTambém é possível obter o tipo de dados de uma única coluna.
Sintaxe
Pyspark_pandas.coluna.dtypesOnde a coluna é o nome da coluna
Exemplo
Neste exemplo, obteremos os tipos de dados da coluna Student_lastName e Mark1.
Saída
objetoConclusão
Neste tutorial Pyspark Pandas Dataframe, vimos métodos diferentes para obter as informações do quadro de dados.