Python One Hot Coding Pandas

Python One Hot Coding Pandas
Este artigo ensinará como realizar a codificação quente em Python usando pandas e scikit Learn.

A codificação a quente refere -se à conversão de dados categóricos em modelos que os algoritmos de aprendizado de máquina podem usar. Na maioria dos casos, isso envolve a conversão de cada valor de categoria em um valor binário de 1 ou 0.

A imagem abaixo ilustra a codificação de um hot.

Fonte: Kaggle

Você pode explorar a codificação de um hot no recurso abaixo:

https: // pt.Wikipedia.org/wiki/um hot

Dados de amostra

Vamos começar criando dados de amostra. Primeiro, use o código de amostra como mostrado abaixo:

importar pandas como PD
df = pd.Quadro de dados(
"Categorias": ['Cat1', 'Cat2', 'Cat3', 'Cat2', 'Cat1', 'Cat1', 'Cat3'],
"Valores": [10,20,20,40,24,34,23]
)
df

Importar OneHotencoder do Sci-Kit-Learn para executar uma codificação única para executar a codificação de um hots como mostrado:

de Sklearn.Pré -processamento Importar OneHotencoder
# Instanciação
e = OneHotencoder (handle_unknown = 'ignorar')
# Encode
e_df = pd.DataFrame (e.fit_transform (df [['categorias']])).TOARRAY ())
e_df

No exemplo acima, começamos importando o OneHotencoder do Sci-Kit-Learn. Em seguida, criamos uma instância do codificador e passamos o parâmetro handle_unknown para ignorar.

Finalmente, criamos um novo DataFrame a partir dos dados codificados. O código acima deve retornar o novo DataFrame, como mostrado:

Você também pode mesclar o quadro de dados codificado para o quadro de dados original usando o método de junção como:

df = df.Junte -se (e_df)
df

O código acima deve retornar:

Conclusão

Este artigo abrange o mínimo de realizar uma codificação básica de um hot de um quadro de dados de pandas usando a biblioteca Sci-Kit-Learn.