Método Pyspark Fillna

Método Pyspark Fillna

Vamos aprender sobre a biblioteca Pyspark nesta sessão. É um mecanismo de processamento distribuído e distribuído de uso geral, que permite gerenciar efetivamente os dados em várias estações de trabalho. Também aprenderemos sobre o método Pyspark Fillna () usado para preencher os valores nulos no quadro de dados com um valor personalizado, juntamente com seus exemplos.

O que é Pyspark?

Pyspark é um dos idiomas suportados de Spark. Spark é uma grande tecnologia de processamento de dados que pode lidar com dados em uma escala de petabytes. Pyspark é uma cooperação Apache Spark e Python. O Python é uma moderna linguagem de programação de alto nível, enquanto o Apache Spark é uma fonte aberta que se concentra nas tarefas computacionais de clusters e principalmente tem como alvo a velocidade, a facilidade de uso e a análise de streaming. Como a Spark é construída principalmente em Scala, a criação de aplicativos Spark em Scala ou Java permite que você acesse mais de suas capacidades do que escrever programas de faísca em Python ou R. Pyspark, por exemplo, atualmente não suporta o conjunto de dados. Você pode desenvolver aplicativos Spark para processar dados e iniciá -los na plataforma Spark usando Pyspark. O AWS oferece o EMR gerenciado e a plataforma Spark.

Se você está fazendo uma ciência de dados, o Pyspark é uma opção melhor que o scala, porque existem muitas bibliotecas populares de ciência de dados escritas em python, como Numpy, Tensorflow e Scikit-Learn. Você pode usar o Pyspark para processar os dados e estabelecer um cluster EMR na AWS. Pyspark pode ler os dados de vários formatos de arquivo, incluindo CSV, Parquet, JSON e bancos de dados. Para conjuntos de dados menores, os pandas são utilizados, enquanto para conjuntos de dados maiores, o Pyspark é empregado. Em comparação com Pyspark, os pandas fornecem resultados mais rápidos. Dependendo da disponibilidade de memória e tamanho dos dados, você pode alternar entre Pyspark e Pandas para melhorar o desempenho. Sempre use pandas sobre Pyspark quando os dados a serem processados ​​forem suficientes para a memória. Spark rapidamente se tornou a tecnologia preferida do setor para processamento de dados. No entanto, não é o primeiro. Antes do Spark, o mecanismo de processamento era mapeado.

O que é Pyspark Fillna ()?

Pyspark Fillna () é um método Pyspark usado para substituir os valores nulos em uma única ou muitas colunas em um modelo de quadro de dados Pyspark. Dependendo dos requisitos de negócios, esse valor pode ser qualquer coisa. Pode ser 0 ou uma corda vazia e qualquer literal constante. Esse método Fillna () é útil para análise de dados, pois elimina valores nulos que podem causar dificuldades com a análise de dados.

Exemplo de usar Fillna ()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
de Pyspark.SQL Import SparkSession
Spark_session = SparkSession.construtor \
.mestre ('local [1]') \
.AppName ('Exemplo') \
.getorcreate ()
df = spark_session.CreatedAtAframe (
[[
(1, 'Canadá', 'Toronto', nenhum),
(2, 'Japão', 'Tóquio', 8000000),
(3, 'Índia', 'Amritsar', nenhum),
(4, 'Turquia', 'Ancara', 550000),
],
['id', 'país', 'cidade', 'população']
)
df.mostrar()

Saída:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
+---+---------+--------------+-----------+
| id | país | cidade | População |
+---+---------+--------------+-----------+
| 1 | Canadá | Toronto | nulo |
| 2 | Japão | Tóquio | 8000000 |
| 3 | Índia | Amritsar | nulo |
| 4 | Turquia | Ancara | 550000 |
+---+---------+--------------+-----------+

Agora podemos usar apenas o argumento do valor para substituir todos os valores nulos em um DataFrame:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
df.n / D.preencher (valor = 0).mostrar()
df.n / D.preencher (valor = 0, subconjunto = ["população"])).mostrar()
df.preenchna (valor = 0).mostrar()
+---+---------+--------------+-----------+
| id | país | cidade | População |
+---+---------+--------------+-----------+
| 1 | Canadá | Toronto | 0 |
| 2 | Japão | Tóquio | 8000000 |
| 3 | Índia | Amritsar | 0 |
| 4 | Turquia | Ancara | 550000 |
+---+---------+--------------+-----------+

A operação acima substituirá todos os valores nulos nas colunas inteiras com 0.

Conclusão

Discutimos o método Pyspark, Pyspark Fillna () e seus exemplos nesta sessão. O método Fillna () substitui todos os valores nulos no quadro de dados por nossos valores personalizados.