Pyspark - coluna de soltar, soltar

Evan Mueller

No Python, Pyspark é um módulo Spark usado para fornecer um tipo semelhante de processamento como o Spark usando o DataFrame. Drop () no Pyspark é usado para remover as colunas do DataFrame. Usando Drop (), podemos remover mais de uma coluna de cada vez no Pyspark Dataframe. Podemos soltar as colunas do quadro de dados de três maneiras. Antes disso, temos que criar dados de dados Pyspark para demonstração.

Exemplo:

Criaremos um DataFrame com 5 linhas e 6 colunas e exibiremos -o usando o método show ().

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#display dataframe
df.mostrar()

Saída:

Agora, exiba o esquema DataFrame usando o método printSchema () para verificar as colunas antes de remover as colunas.

Este método retornará os nomes das colunas junto com seu tipo de dados.

#import o módulo Pyspark
Importar Pyspark
#Import SparkSession para criar uma sessão
de Pyspark.SQL Import SparkSession
#Import the CountFunction
de Pyspark.SQL.funções contagem de importações
#Crie um aplicativo chamado Linuxhint
Spark_App = SparkSession.construtor.AppName ('Linuxhint').getorcreate ()
# Crie dados dos alunos com 5 linhas e 6 atributos
alunos = ['rollno': '001', 'nome': 'sravan', 'idade': 23, 'altura': 5.79, 'Peso': 67, 'Endereço': 'Guntur',
'rollno': '002', 'nome': 'ojaswi', 'idade': 16, 'altura': 3.79, 'Peso': 34, 'Endereço': 'Hyd',
'rollno': '003', 'nome': 'gnanesh chowdary', 'idade': 7, 'altura': 2.79, 'Peso': 17, 'Endereço': 'Patna',
'rollno': '004', 'nome': 'rohith', 'idade': 9, 'altura': 3.69, 'Peso': 28, 'Endereço': 'Hyd',
'rollno': '005', 'nome': 'sridevi', 'idade': 37, 'altura': 5.59, 'Peso': 54, 'Endereço': 'Hyd']
# Crie o DataFrame
df = spark_app.CreatedAtAframe (estudantes)
#Display O esquema
df.PrintSchema ()

Saída:

Método -1: soltar coluna única

Vamos remover apenas uma coluna de cada vez usando a função Drop () passando a coluna dentro da função Drop.

Sintaxe:

df.Drop ('Column_Name')

Onde,

DF é o quadro de dados Pyspark de entrada
Column_name é a coluna a ser descartada.

Exemplo :

Neste exemplo, abordaremos a coluna do nome e exibiremos o quadro de dados resultantes e o esquema.

Saída:

[Linha (endereço = 'guntur', idade = 23, altura = 5.79, rollno = '001', peso = 67), linha (endereço = 'hyd', idade = 16, altura = 3.79, rollno = '002', peso = 34), linha (endereço = 'patna', idade = 7, altura = 2.79, rollno = '003', peso = 17), linha (endereço = 'hyd', idade = 9, altura = 3.69, rollno = '004', peso = 28), linha (endereço = 'hyd', idade = 37, altura = 5.59, rollno = '005', peso = 54)]
raiz
|- Endereço: String (Nullable = true)
|- Idade: Long (Nullable = True)
|- Altura: dupla (anulável = true)
|- rolno: string (nullable = true)
|- Peso: longo (nulo = true)

No exemplo acima, veremos que a coluna de nome não está presente no quadro de dados

Método - 2: Drop Mutiple Colunas

Vamos remover apenas uma coluna de cada vez usando a função Drop () passando a coluna dentro da função Drop. Se tivermos que remover várias colunas, precisamos adicionar * antes dos nomes das colunas a serem removidos dentro ().

Sintaxe:

df.soltar (*('column_name', 'column_name',…, 'colun_name')))

Onde,

DF é o quadro de dados Pyspark de entrada
Column_name é a coluna a ser descartada.

Exemplo :

Neste exemplo, abordaremos as colunas de nome, altura e peso e exibiremos o quadro de dados resultante junto com o esquema.

Saída:

[Linha (endereço = 'guntur', idade = 23, rollno = '001'), linha (endereço = 'hyd', idade = 16, rollno = '002'), linha (endereço = 'patna', idade = 7 , rollno = '003'), linha (endereço = 'hyd', idade = 9, rollno = '004'), linha (endereço = 'hyd', idade = 37, rollno = '005')]]
raiz
|- Endereço: String (Nullable = true)
|- Idade: Long (Nullable = True)
|- rolno: string (nullable = true)

No exemplo acima, veremos que o nome, a altura e as colunas de peso não estão presentes no quadro de dados.

Método - 3: Drop Mutiple Colunas de uma lista

Sintaxe:

df.LISTA (*Lista)

Aqui, a lista manterá várias colunas

list = (column_name ',' column_name ',…,' column_name ')

Onde,

DF é o quadro de dados Pyspark de entrada
Column_name é a coluna a ser descartada.

Exemplo :

Neste exemplo, abordaremos as colunas de nome, altura e peso passadas pela List1 e exibiremos o quadro de dados resultante junto com o esquema.

Saída:

No exemplo acima, veremos que o nome, a altura e as colunas de peso não estão presentes no quadro de dados.

Conclusão:

Discutimos como soltar as colunas usando a função Drop () e também discutimos como remover várias colunas por vez com queda passando uma lista de colunas e passando várias colunas.

Pitão

Numpy Astype

O método “astype ()” do módulo Numpy é usado para alterar o tipo de dados de uma matriz numpy em out...

Jackie Blanda

Pitão

Como faço para verificar se uma string está vazia em python

Operador “não”, função “len ()”, função “strip ()”, “==” operador, “__eq __ ()” método, ou “não + st...

Marlon Bernhard

Pitão

Etiquetas do eixo marítimo

Os “eixos.função set () ”, funções da biblioteca matplotlib ou as funções“ set_xlabel () ”e“ set_yla...

Salvatore Watsica