O que é processamento de dados?
O pré -processamento de dados é um estágio crítico no aprendizado de máquina que melhora a qualidade dos dados para incentivar a extração de informações valiosas dos dados. A preparação de dados no aprendizado de máquina é o processo de preparar os dados brutos (limpando e organizando) para ser usado para criar e treinar modelos de aprendizado de máquina. O pré -processamento de dados no aprendizado de máquina é, para simplificar, uma abordagem de mineração de dados que converte dados brutos em um formato que é legível e inteligível.
Por que precisamos de pré -processamento de dados?
Os dados do mundo real freqüentemente carecem de valores ou tendências de atributos específicos e são frequentemente inconsistentes, errôneos (contém erros ou outliers) e incompletos. A preparação dos dados entra em jogo nessa situação porque ajuda a limpar, formatar e organizar os dados brutos, preparando -os para uso por modelos de aprendizado de máquina.
O pré -processamento de dados lida com o seguinte:
Padrões para a API Scikit-Learn
Existem várias especificações para o tipo de dados que o Sklearn processará.
Implementando o pré -processamento Sklearn
Importando as bibliotecas e dados
# Importando as bibliotecas e aulasCarregando as 5 primeiras linhas dos dados
df.cabeça()Saída
comprimento sépico (cm) | largura sépica (cm) | comprimento de pétala (cm) | largura da pétala (cm) | |
---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 |
1 | 4.9 | 3.0 | 1.4 | 0.2 |
2 | 4.7 | 3.2 | 1.3 | 0.2 |
3 | 4.6 | 3.1 | 1.5 | 0.2 |
4 | 5.0 | 3.6 | 1.4 | 0.2 |
Obtendo informações sobre tipos e valores nulos
df.info ()Saída
RangeIndex: 150 entradas, 0 a 149Preencher os valores ausentes do quadro de dados usando Sklearn:
Imputer = SimpleImputer (estratégia = 'média')Podemos iterar todas as colunas para executar esta tarefa em todas as colunas.
Escalando os dados usando o scaler padrão
Scaler = StandardsCaler ()Saída
Array ([[-0.90068117, 1.01900435, -1.34022653, -1.3154443],Uma codificação quente
coder = OneHotencoder (handle_unknown = 'ignorar')Saída
[Array (['a', 'b'], dtype = objeto), array ([1, 2, 3], dtype = objeto)]Conclusão
Discutimos o pré -processamento e sua implementação na Biblioteca Sklearn Python neste artigo. Para facilitar a extração de informações úteis dos dados, o pré -processamento de dados é uma etapa crucial no aprendizado de máquina. Aumenta a qualidade dos dados. Então, discutimos a implementação em Sklearn. Primeiro recuperamos informações sobre dados, incluindo os valores e tipos de dados ausentes e depois preenchimos os valores ausentes. Também trabalhamos para escalar os dados e uma codificação a quente.