Pyspark - coluna de soltar, soltar

Pyspark - coluna de soltar, soltar
No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Drop () no Pyspark é usado para remover as colunas do DataFrame. Usando Drop (), podemos remover mais de uma coluna de cada vez no Pyspark Dataframe. Podemos soltar as colunas do quadro de dados de três maneiras. Antes disso, temos que criar dados de dados Pyspark para demonstração.

Exemplo:

Criaremos um DataFrame com 5 linhas e 6 colunas e exibiremos -o usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()

Saída:

Agora, exiba o esquema DataFrame usando o método printSchema () para verificar as colunas antes de remover as colunas.

Este método retornará os nomes das colunas junto com seu tipo de dados.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import the CountFunction
de Pyspark.SQL.funções contagem de importações
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O esquema
df.PrintSchema ()

Saída:

raiz
|- Endereço: String (Nullable = true)
|- Idade: Long (Nullable = True)
|- Altura: dupla (anulável = true)
|- Nome: String (Nullable = True)
|- rolno: string (nullable = true)
|- Peso: longo (nulo = true)

Método -1: soltar coluna única

Vamos remover apenas uma coluna de cada vez usando a função Drop () passando a coluna dentro da função Drop.

Sintaxe:

df.Drop ('Column_Name')

Onde,

  1. DF é o quadro de dados Pyspark de entrada
  2. Column_name é a coluna a ser descartada.

Exemplo :

Neste exemplo, abordaremos a coluna do nome e exibiremos o quadro de dados resultantes e o esquema.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import the CountFunction
de Pyspark.SQL.funções contagem de importações
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#coluna de nome da drópica
df = df.soltar ('nome')
#Verifique o DataFrame
Imprimir (df.colet ()))
#Display O esquema
#AFter Removendo a coluna
df.PrintSchema ()

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, rollno = '001', peso = 67), linha (endereço = 'hyd', idade = 16, altura = 3.79, rollno = '002', peso = 34), linha (endereço = 'patna', idade = 7, altura = 2.79, rollno = '003', peso = 17), linha (endereço = 'hyd', idade = 9, altura = 3.69, rollno = '004', peso = 28), linha (endereço = 'hyd', idade = 37, altura = 5.59, rollno = '005', peso = 54)]
raiz
|- Endereço: String (Nullable = true)
|- Idade: Long (Nullable = True)
|- Altura: dupla (anulável = true)
|- rolno: string (nullable = true)
|- Peso: longo (nulo = true)

No exemplo acima, veremos que a coluna de nome não está presente no quadro de dados

Método - 2: Drop Mutiple Colunas

Vamos remover apenas uma coluna de cada vez usando a função Drop () passando a coluna dentro da função Drop. Se tivermos que remover várias colunas, precisamos adicionar * antes dos nomes das colunas a serem removidos dentro ().

Sintaxe:

df.soltar (*('column_name', 'column_name',…, 'colun_name')))

Onde,

  1. DF é o quadro de dados Pyspark de entrada
  2. Column_name é a coluna a ser descartada.

Exemplo :

Neste exemplo, abordaremos as colunas de nome, altura e peso e exibiremos o quadro de dados resultante junto com o esquema.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import the CountFunction
de Pyspark.SQL.funções contagem de importações
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Nome da Drop, altura e coluna de peso
df = df.soltar (*('nome', 'altura', 'peso')))
#Verifique o DataFrame
Imprimir (df.colet ()))
#Display O esquema
#AFter Removendo a coluna
df.PrintSchema ()

Saída:

[Linha (endereço = 'guntur', idade = 23, rollno = '001'), linha (endereço = 'hyd', idade = 16, rollno = '002'), linha (endereço = 'patna', idade = 7 , rollno = '003'), linha (endereço = 'hyd', idade = 9, rollno = '004'), linha (endereço = 'hyd', idade = 37, rollno = '005')]]
raiz
|- Endereço: String (Nullable = true)
|- Idade: Long (Nullable = True)
|- rolno: string (nullable = true)

No exemplo acima, veremos que o nome, a altura e as colunas de peso não estão presentes no quadro de dados.

Método - 3: Drop Mutiple Colunas de uma lista

Vamos remover apenas uma coluna de cada vez usando a função Drop () passando a coluna dentro da função Drop. Se tivermos que remover várias colunas, precisamos adicionar * antes dos nomes das colunas a serem removidos dentro de uma lista - [].

Sintaxe:

df.LISTA (*Lista)

Aqui, a lista manterá várias colunas

list = (column_name ',' column_name ',…,' column_name ')

Onde,

  1. DF é o quadro de dados Pyspark de entrada
  2. Column_name é a coluna a ser descartada.

Exemplo :

Neste exemplo, abordaremos as colunas de nome, altura e peso passadas pela List1 e exibiremos o quadro de dados resultante junto com o esquema.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import the CountFunction
de Pyspark.SQL.funções contagem de importações
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#list of colunas
List1 = ['nome', 'altura', 'peso']
#colunas da Lista 1
df = df.soltar (*list1)
#Verifique o DataFrame
Imprimir (df.colet ()))
#Display O esquema
#AFter Removendo a coluna
df.PrintSchema ()

Saída:

[Linha (endereço = 'guntur', idade = 23, rollno = '001'), linha (endereço = 'hyd', idade = 16, rollno = '002'), linha (endereço = 'patna', idade = 7 , rollno = '003'), linha (endereço = 'hyd', idade = 9, rollno = '004'), linha (endereço = 'hyd', idade = 37, rollno = '005')]]
raiz
|- Endereço: String (Nullable = true)
|- Idade: Long (Nullable = True)
|- rolno: string (nullable = true)

No exemplo acima, veremos que o nome, a altura e as colunas de peso não estão presentes no quadro de dados.

Conclusão:

Discutimos como soltar as colunas usando a função Drop () e também discutimos como remover várias colunas por vez com queda passando uma lista de colunas e passando várias colunas.