Pandas fatorize

Pandas fatorize

"Pandas" é a biblioteca Python mais poderosa para trabalhar com dados de dados. Serve uma diversidade de propósitos. Uma delas é a função Pandas "fatorize ()". Freqüentemente precisamos converter uma variável fornecida em números, especialmente antes de passá -la para algoritmos que apenas aceitam entradas numéricas. O método Pandas "fatorize ()" permite converter facilmente strings em números. Ele identifica os valores distintos da matriz e os retorna como um número numérico. Nos pandas, a função "fator ()" transforma um objeto em uma variável categórica. Isso é útil para identificar valores únicos.”

A sintaxe para empregar o método Pandas “fatorize ()” é fornecida abaixo:

A sintaxe mostra -nos quatro parâmetros desta função. Vamos descrever brevemente esses parâmetros.

O parâmetro “Valores” implica uma matriz unidimensional, como uma lista. O "organizar" O parâmetro é usado para manter a associação, classificar valores distintos e códigos de troca. Aceita um valor bool. Está definido como falso por padrão. O “Na_sentinel” refere -se ao valor que deve ser marcado como "não encontrado". Se não for, a nan não será eliminada da distinção dos dados. O “Size_hint” dá uma dica para o Sizer de Hashing.

Para utilizar a função "fatorize ()", o único argumento obrigatório é "valores". Todos os outros recursos são opcionais.

Dois objetos, “Códigos” e "exclusivo", são devolvidos pela função "fatorize ()". O termo "códigos" refere -se a um ndarray numérico que serve como indexador para "exclusivos", enquanto os valores únicos válidos são chamados de "singulares".

Em seu artigo, vamos explorar o conceito de fazer fatores na programação do Python usando o método Pandas "fatorize ()" com alguns de seus parâmetros principalmente exercidos.

Exemplo # 1: Utilizando o método Pandas "fatorize ()"

A implementação prática do programa Python para executar o método Pandas "fatorize ()" será realizado nesta ilustração.

A ferramenta que estamos utilizando aqui para a compilação dos códigos Python é "Spyder". Esta ferramenta melhor atende aos requisitos do nosso sistema. Lançamos a ferramenta. A interface do usuário apareceu e começamos a escrever nosso script python nele. A primeira coisa que fizemos no arquivo python foi carregar a biblioteca, que precisamos poder acessar seus métodos. Para os requisitos do nosso caso, temos que carregar a biblioteca do Python "Pandas". Escrevemos o script para esta biblioteca como “Importar pandas como PD”. O pseudônimo de "PD" funcionará para obter os métodos "pandas", digitando a abreviação em vez da forma completa.

O kit de ferramentas de pandas é carregado no arquivo python; Agora, temos que mudar para o próximo passo. Na próxima linha do script, geramos uma lista de strings. Criamos uma variável "MyList" para armazenar o conteúdo desta lista para que possamos acessá -la mais tarde. As cordas que armazenamos nesta lista são "Y", "Y", "X", "Z", "Y", "X", "Z" e "Z". Você pode ver que esta lista tem valores recorrentes. No total, ele possui oito valores nele. Para exibir esta lista de strings na tela, empregamos a função "print ()" de Python. Primeiro, fornecemos o texto “Esta é a nossa lista de strings:” para o método “print ()” a ser exibido, e a próxima função “print ()” exibiu o conteúdo “mylist” no console do Spyder.

Para compilar o script que escrevemos acima, pressione o botão "Run File". Você verá uma lista apresentada no terminal com oito valores.

Agora, para encontrar a fatoração desta lista, temos um método pandas “PD.fatorize () ”. Este método nos devolverá duas matrizes. O primeiro será de códigos, enquanto o segundo exibirá os valores únicos na lista.

Criamos duas variáveis ​​de "bacalhau" e "uniq". O "COD" armazenará os códigos gerados pelo "PD.Método de fator () ”para a lista fornecida. O "Uniq" manterá os valores únicos na lista. Nós invocamos o “PD.Método de fator () ”e passou a lista que criamos acima,“ Mylist ”como um parâmetro para esta função. Esta função gerará códigos para cada valor na lista e o armazenará na variável "COD". E extrairá os valores únicos da lista e os colocará na variável “Uniq”. Em seguida, chamamos o método "print ()" para exibir primeiro o texto "Os códigos da lista fornecida são:" e depois o conteúdo da variável "COD". A próxima função "print ()" é utilizada para exibir o texto "Os exclusivos da lista fornecida são:" e, em seguida, os dados da variável "Uniq".

A saída gerada no terminal mostra -nos duas matrizes. A primeira matriz tem valores como "0", "0", "1", "2", "0", "1", "2" e "2". O método "fatorize ()" converteu as seqüências em valores numéricos. O "Y" é substituído por "0", "X" é substituído por "1" e "Z" é substituído por "2". A segunda matriz que retornou é a variedade de valores únicos, que são "y", "x" e "z".

Exemplo # 2: Utilizando o método Pandas “fatorize ()” para classificar os valores

Esta demonstração é para aprender a técnica de classificar valores nas matrizes resultantes geradas a partir do “PD.Método de fator () ”.

Utilizamos a lista criada acima para explicar a técnica de classificação e embaralhamento desta função. Aqui criamos duas variáveis, "Shuffle" e "Sating". A variável "Shuffle" armazenará os códigos embaralhados da variável "Mylist", enquanto a variável "classificação" terá os valores exclusivos classificados da lista fornecida. Atribuímos a essas variáveis ​​a saída de invocar o “PD.Método de fator () ”.

O “PD.O método fatorize () ”é chamado com dois parâmetros. O primeiro parâmetro é "valores", que é o nome da lista "mylist" e o segundo parâmetro é "classificar". O parâmetro "classy" classificará os valores únicos e depois embaralhará os códigos de acordo. Por padrão, ele está definido como "false", mudamos as configurações e definimos como "true" para executar a classificação. Empregamos duas funções "print ()". O primeiro a exibir o texto “Os códigos embaralhados para a lista fornecida são:” e, em seguida, os dados na variável “Shuffle”. O outro método "print ()" deve exibir o texto "Os exclusivos classificados para a lista fornecida são:" seguidos pelo conteúdo da variável "classificação".

Quando o resultado é apresentado no terminal, recebemos novas matrizes. A primeira matriz tem a lista de valores numerosos de embaralhamento como "1", "1", "0", "2", "1", "0", "2" e "2". Para sua conveniência, imprimimos os códigos não abafados também para que você possa entender facilmente a diferença. A segunda matriz classificou valores únicos como "x", "y" e "z". Os valores únicos na lista agora são classificados em ordem alfabética. Você pode compará -lo com a matriz não classificada, que tem os exclusivos como "Y", "X" e "Z".

Conclusão

Neste artigo, focamos em aprender a técnica de fatorar as cordas em números. Para esse fim, utilizamos os pandas “PD.Método de fator () ”. Essa abordagem é bastante útil ao agrupar dados e traduzi -los em valores numéricos. Elaboramos no procedimento para usar esse método e descrevemos seus diferentes parâmetros que podem ser exercidos quando necessário. Realizamos a implementação prática dos scripts Python para compreender a aplicação deste método. Renderizamos os códigos de amostra, bem como sua saída neste tutorial. É altamente recomendável o exercício prático dessas técnicas que começam de programas básicos para complexos para obter o melhor entendimento das técnicas de pandas.