PANDAS Categórica

PANDAS Categórica
As variáveis ​​categóricas usadas nas estatísticas são representadas pelo tipo de dados do Pandas. Os dados em tempo real geralmente contêm colunas de texto com dados repetitivos. Sempre há alguma repetição nos recursos como gênero, tipo de sangue e códigos. Eles podem ser tomados como exemplos de categóricos. Existe apenas um número fixo e limitado ou um intervalo de valores possíveis para variáveis ​​categóricas. Os dados categóricos podem ter um pedido além do comprimento fixo, mas não podem executar operações numéricas. Neste tutorial, aprenderemos a criar categóricos em pandas e alterar diferentes tipos de dados para categóricos.

Quando usar a categórica?

Nos cenários seguintes, podemos usar o Datatype Categórico:

  • Uma variável de string com apenas alguns valores distintos. Para salvar a memória, a variável pode ser transformada em uma variável de categoria.
  • A variável de ordem lógica ("um", "dois" e "três") e uma variável com ordem lexical não são os mesmos. A classificação e o mínimo/máximo empregarão a ordem lógica em oposição à ordem lexical se o problema for convertido em uma categoria e as categorias receberem uma ordem.
  • Outras bibliotecas Python devem tratar as colunas como variáveis ​​categóricas (por exemplo, para usar os tipos ou funções estatísticas de plotagem estatística apropriadas).

Como criar categóricos dos pandas?

Existe uma ampla gama de maneiras de criar categóricas em pandas. Algumas funções e atributos para criar categóricos nos pandas serão discutidos nos exemplos a seguir:

Exemplo # 1: Criando categórica usando a série Pandas

Um categórico pode ser criado em pandas usando o PD.Função da série (). Para criar uma série, importaremos o módulo Pandas primeiro.

Usamos uma lista de strings ["ASD", "123", "Def", "456"] dentro do PD.Série () Funciona como um argumento. Também especificamos o parâmetro "dtype" para "categoria" para armazenar os dados como categóricos. Vamos ver a categórica imprimindo a variável "string".

Como visto na saída, nossa série é convertida em categórica especificando a categoria dtype = '.

Exemplo # 2: Criação de dados de dados categóricos em pandas

Usando pandas.DataFrame (categoria dtype = ”. Assim como a série, o atributo dtype da função DataFrame () está definido como "Categoria" para criar um DataFrame categórico. Ao definir dtype = "categoria" no construtor de dados, todas as colunas no quadro de dados podem ser feitas categóricas durante ou após a construção. Vamos criar uma amostra de quadro de dados para mostrar a diferença entre os dados de dados comuns e categóricos.

Para criar nosso quadro de dados "DF", primeiro importamos os módulos Pandas e Numpy para usar seus recursos e funções. Depois de importar os módulos, criamos um dicionário "dados" com duas chaves, "col1" e "col2". O dicionário de "dados" é passado para o PD.Função DataFrame () para criar o DataFrame "DF".

É um quadro de dados de pandas comuns com colunas que armazenam dados numéricos. Para determinar os tipos de dados das colunas no quadro de dados "df", o atributo dTypes será usado.

O tipo de dados das colunas 'col1' e 'col2' é “int64”. Agora, mostraremos como criar um quadro de dados categórico com os mesmos rótulos e valores da coluna.

Como visto nesse quadro de dados, especificamos o dtype para 'categoria'. Vamos verificar os tipos de dados deste DataFrame:

Como mostrado, o tipo de dados das colunas deste quadro é 'categoria'. Então, este é um quadro de dados categórico.

Exemplo # 3: Criando categórico usando a função ASTYPE ()

Um objeto Pandas pode ser convertido para um determinado DType usando o “DataFrame.método astype () ”. Além disso, o método astype () fornece a capacidade de alterar qualquer coluna existente apropriada para um tipo de categoria. Quando somos obrigados a converter o tipo de dados de uma coluna específica de DataFrame para outro tipo de dados, o DataFrame.A função astype () pode ser usada. Primeiro, criaremos um amostra de dados de dados. Em seguida, converteremos as colunas de dataframe em categóricas.

Criamos nosso quadro de dados passando o dicionário dentro do PD.DataFrame () função como um argumento.

Como visto no quadro de dados anteriores "df", existem três colunas, A, B e C, armazenando valores [1, 3, 5, 7], [2.1, 4.2, 8.3, 16.4] e ["John", "Tim", "Clay", "Mike"], respectivamente. Para determinar o tipo de dados de cada coluna, usaremos o atributo dTypes.

O tipo de dados da coluna “A” é 'Int64', enquanto os tipos de dados da coluna “B” e “C” é “Float64” e “Objeto”, respectivamente. Agora, usaremos a função ASTYPE () para alterar o tipo de dados de colunas específicas.

Dentro do df.Função ASTYPE (), passamos pelo dicionário Python contendo os rótulos das colunas "A" e "C" como chaves, e o tipo de dados "categoria" é especificado como o valor para ambos os rótulos da coluna. Vamos verificar se os tipos de dados são alterados para a categoria ou não.

Observe que as colunas “A” e “C” foram convertidas com sucesso em categoria.

Exemplo # 4: Usando a função categorical () para criar o categórico

Podemos criar variáveis ​​categóricas em pandas usando a função categórica (). Primeiro, examinaremos a sintaxe da função () e depois usá -la para criar o categórico.

Sintaxe:

Pandas.Categórico (Val, Categorias = Nenhum, Ordenado = Nenhum, Dtype = Nenhum)

Parâmetros:

categorias: Tipo de índice. As categorias distintas para o categórico. Presume -se que as categorias sejam valores distintos dos 'valores' se não for especificado.

Ordenado (opcional): Se esse categórico for considerado um categórico ordenado. Se for verdade, a saída categórica será classificada. Quando classificado, um ordenado respeita a ordem do atributo.

Dtype: Categoricaldtype. Uma instância a ser usada para categórica.
Agora vamos criar categóricos de pandas usando o PD.Função categórica (). Primeiro, vamos importar o módulo pandas para criar nosso categórico.

Como pode ser visto, criamos duas categorias, 'Cat1' e 'Cat2', passando uma lista de valores dentro dos parênteses da função categórica (). Você notará na saída que "Cat1" categórico consiste em 3 categorias [1, 3, 4, 6], enquanto categórico "Cat2" consiste em 6 categorias ['a', 'd', 'g', 'j' , 'S', 'W'].

Agora, vamos verificar a saída especificando o parâmetro 'ordenado' para 'true'.

Como você pode observar, especificando ordenado = true, a saída categórica agora é classificada [1 < 3 < 4 < 6].

Agora, vamos tentar outro exemplo quando o parâmetro "categorias" é especificado.

Dentro do PD.Função categórica (), a lista ['1', '2', '3', '2', '1', '4', '2'] é passada para ser convertida em categórica, enquanto a lista ['3 ',' 1 ',' 2 '] é especificado como o parâmetro “categorias”. Vamos imprimir o "gato" categórico para ver a saída.

Como resultado, qualquer valor que não exista na lista de categorias será considerado NAN. Na lista 'Val', o valor '4' não está presente na lista de argumentos de “categorias”, por isso é considerado NAN.

Você também pode executar funções diferentes com categóricas como renomear as categorias, anexar novas categorias, excluir categorias, etc.

Conclusão

Neste tutorial, vimos essas variáveis ​​categóricas estatísticas são representadas por um tipo de dados em pandas chamados categóricos. Uma variável categórica tem um conjunto fixo, normalmente restrito de valores possíveis. Depois de passar por este tutorial, você pode estar familiarizado com a categórica em pandas e poderá criar categóricos por conta própria. Implementamos alguns exemplos neste tutorial para ensinar como criar colunas de uso categórico usando séries, dados de dados, a função ASTYPE () e usando a função categorical ().