PANDAS FUNÇÃO CUTO

PANDAS FUNÇÃO CUTO
Na análise de dados, dados numéricos são onipresentes. Freqüentemente, você pode encontrar dados numéricos que sejam contínuos em tamanhos extremamente vastos ou severamente distorcidos. Geralmente poderia ser preferível organizar os dados em períodos distintos. Depois que os dados são divididos em divisões úteis, as estatísticas descritivas podem ser executadas de maneira mais eficaz.

Transformar os dados estatísticos em conjuntos de dados é uma brisa com a função de corte interno de pandas (). Somente os elementos unidimensionais semelhantes a matrizes são compatíveis com o método Cut (). Quando temos um monte de dados numéricos e precisa executar alguma avaliação estatística, o método Cut () é útil.

Vamos imaginar, para ilustração, que obtemos uma variedade de valores de 5 a 15. Em seguida, dividimos esses números em 2 categorias e os classificamos. Nós nos referimos a essas coleções como caixas. Como resultado, separamos esses dados nas caixas 1 e 2, que são de 5 a 10 e 10 a 15, respectivamente. Tendo as duas caixas, podemos avaliar quais números são maiores e quais são pequenos. Portanto, 10 a 15 são maiores que 5 a 10 e vice -versa. Isso leva aos termos "baixos" e "altos" que se referem aos valores mais baixos e aos maiores, respectivamente.

Essa abordagem é conhecida como marcando os dados com a técnica de corte () de Pandas '. Utilize a função de corte () se precisar dividir os dados em segmentos e inserir os números em caixas. O referido método também é benéfico para converter um valor infinito em dados categóricos.

Método Pandas Cut () Sintaxe

A matriz unidimensional que precisa ser colocada na lixeira é representada pelo “x”Símbolo. Para a classificação, “BIN”Define os limites do compartimento. O "certo”Especifica se o limite mais à direita deve ser retido ou não; A configuração padrão é verdadeira. O "Rótulos”Ajude a representar, além de classificar as caixas altas ou baixas. Ele fornece instruções para a rotulagem nos recipientes que retornam e devem ter o tamanho exato como o dos caixotes resultantes. Booleano ou matrizes são aceitáveis ​​em rótulos. O "retbins”Determine se as caixas devem ser devolvidas ou não. O termo "precisão”Descreve o nível de precisão usado enquanto preserva e apresenta os rótulos para as caixas. O "inclua mais baixo”Determina se o intervalo inicial é deixado abrangente ou não. Sempre que os limites das caixas não são distintas, “duplicados”Especifica se deve jogar um valor e remover um não distinto.

Exemplo 1: Segmentando valores em caixas

Iniciamos a demonstração prática da função Pandas Cut () com o exemplo básico e simples de colocar os valores de um quadro de dados nas caixas, segmentando -os.

A primeira coisa que você precisa fazer antes de começar a trabalhar no código principal é importar as bibliotecas necessárias no Python. Nesta ilustração, importamos duas bibliotecas Python que são "Panda" e "Numpy".

A Biblioteca Pandas nos permite utilizar as funções de pandas, incluindo a função Cut () que é o nosso tópico de discussão hoje. Enquanto a outra biblioteca que importamos é Numpy, que está entre as ferramentas Python mais usadas para cálculos estatísticos. Para preencher o objeto DataFrame, utilizamos o Numpy para criar os números inteiros arbitrários.

Agora, começamos com o código principal que pode ser visto na imagem anterior.

Aqui, criamos uma variável como "new_df", que armazena uma matriz de números gerados aleatoriamente. O “PD.DataFrame ”é chamado para gerar um DataFrame. Requer 2 parâmetros: o título da coluna "Valor" e o "NP.aleatório.Randint ”função. O “np.aleatório.Randint ”gera ​​números aleatórios para o DataFrame definido. São necessários três parâmetros - valor mínimo, valor máximo e o comprimento/tamanho da matriz. Definimos o valor mínimo como 5 e o valor máximo como 50 e o comprimento da matriz é definido como 10. Então, gera 10 números aleatórios que variam de 5 a 50. Em seguida, utilizamos a expressão "print ()" para imprimir o DataFrame "new_df".

Aqui, você pode ver um quadro de dados com a coluna “valores” com 10 valores.

Agora, criamos outra coluna como "value_bins" dentro do quadro de dados existente, eu.e. new_df. Então chamamos o corte de pandas (). Passamos os parâmetros para o método de corte. O "X" recebe o nome do DataFrame/Array que precisamos colocar na lixeira. Em nosso exemplo, é "new_df [valores]" em que "valor" é o nome da coluna na qual o corte () é aplicado. O segundo parâmetro do parâmetro de corte que usamos é a "lixeira" para definir as bordas da lixeira. Aqui, queremos dividir os dados em 4 caixas de (5, 20], (20, 30], (30, 40], (40, 50].

Na última declaração de impressão, chamamos a função "exclusiva ()" que gera uma matriz de valores únicos.

A imagem de saída mostra o quadro de dados com o compartimento. Você pode notar que "20" também é adicionado à lixeira. É resultado da inclusão padrão da borda mais à direita. Se não precisarmos, use o método cut () com a direita = opção falsa.

Exemplo 2: rotulando as caixas

Podemos adicionar rótulos às caixas com a função Pandas Cut ().

Para fins de ilustração, criamos um quadro de dados com a função Pandas Dataframe, como criamos no exemplo anterior. Este DataFrame contém uma coluna "Número" que armazena uma matriz de tamanho 10 com valores gerados aleatoriamente de 11 a 32. Em seguida, criamos outra coluna no mesmo DataFrame e nomeie -a "Numbers_labels". Invocamos a função Pandas Cut (). Dentro desta função, mencionamos o nome da coluna do nosso quadro de dados para aplicar a função Cut (). Como precisamos cortar e segmentar os dados em 2 caixas, fornecemos 2 limites da lixeira como (11, 22], (22, 32].

A próxima coisa é definir os rótulos das caixas. No argumento "Rótulos", passamos pelas duas expressões como "baixas" e "altos".

Usamos o mesmo procedimento de antes, mas além de dividir os resultados em caixas, agora rotulamos as caixas como altos e baixos.

Os valores estatísticos são diferenciados em caixas. Então, podemos observar os números que forem maiores e que são menores. Na invocação de função cut (), definimos a direita = false porque precisamos de 10 para ser um elemento de altos.

A imagem de saída mostra as caixas com rótulos "baixos" e "altos". Os pequenos valores são rotulados como baixos e os valores maiores são denominados altos.

Conclusão

Este artigo é baseado na função Pandas Cut (). Inclui a introdução à função Pandas Cut (), bem como a necessidade de usar este método. Explicamos todos os detalhes necessários e o familiarizamos com o básico da função Cut (). Elaboramos cada parâmetro desta função em termos fáceis de entender. Realizamos os exemplos de código prático implementados no Spyder para permitir que você pratique esse método com eles. De maneira semelhante, você pode praticar os outros parâmetros da função Cut (). Fizemos um esforço intencional para fornecer o melhor e mais útil exercício de aprendizado e ajudá -lo a aprender novos conceitos em programação.