Método de correlação de pandas

Método de correlação de pandas
"Pandas" é uma biblioteca Python que usamos para analisar dados. É uma ferramenta de análise e processamento rápida, poderosa, adaptável e amigável. Os valores são mantidos em formato de linha e coluna usando um modelo de dados bidimensional conhecido como "quadro de dados de pandas".

Agora, os pandas podem ajudar na produção de uma variedade de mapas de análise de dados. Correlação é uma técnica. Correlação é uma estatística muito útil que indica como dois conjuntos de dados estão inter -relacionados. Os pandas “DataFrame.o método corr () ”pode ser utilizado para encontrar a correlação entre duas ou mais colunas em um quadro de dados. Uma correlação positiva significa que os valores em um grupo continuam aumentando com um aumento no outro, enquanto uma correlação negativa implica que os valores em um grupo continuam caindo com um aumento no outro.

Pandas DataFrame.função corr ()

Podemos usar o Pandas “DataFrame.função corr () ”seguindo a sintaxe fornecida abaixo:


Quando você usa o método "corr ()" para calcular a correlação de Pearson entre duas colunas de pandas, ele produz uma única figura que representa a correlação do Pearson entre as duas colunas. Você também pode usar o método explicitamente em um quadro de dados para gerar uma matriz de correlações em pares entre várias colunas.

Exemplo 1

Neste exemplo, encontraremos a correlação entre três colunas de um DataFrame. Para a implementação prática deste método no Python, usamos a ferramenta "Spyder". Abra um novo arquivo python na ferramenta "Spyder". O requisito mais importante ao começar a escrever o script é importar bibliotecas relevantes. Como precisamos implementar um método "pandas", então temos "Importar pandas como PD" para acessar os recursos de "pandas".

Então começamos nosso código Python principal. Criamos um DataFrame utilizando o “PD.DataFrame () ”Método. O DataFrame é inicializado por três colunas "Computador", "Química" e "Matemática". Todas as colunas do quadro de dados armazenam o mesmo comprimento dos valores. A primeira coluna, "Computer", tem oito valores inteiros, que são "80", "75", "62", "89", "63", "41", "73" e "54". A segunda coluna, "Química", também armazena oito valores int que são "87", "67", "53", "54", "66", "82", "58" e "66". A última coluna, "Math", tem valores "93", "75", "65", "47", "83", "78", "83" e "98".

Para exibir nosso quadro de dados inicial, usamos o método "Print ()" com o nome do DataFrame "Data" como seu parâmetro na linha final do script.


Para visualizar a saída no terminal, use o botão "Run File" na ferramenta "Spyder" ou pressione as teclas "Shift+Enter". A saída exibida no terminal mostra um quadro de dados com três colunas que são criadas com sucesso.


Nós criamos nosso quadro de dados fundamentais. Agora, temos que encontrar a correlação entre duas colunas do nosso DataFrame "Data". Para o referido objetivo, usamos pandas “DataFrame.função corr () ”, que calculará a correlação entre as duas colunas especificadas do DataFrame. Primeiro temos que fornecer o título do DataFrame com o nome da primeira coluna, depois o ““.função corr () ”com o nome da segunda coluna entre seus parênteses.

Aqui, usamos a coluna "computador" e a coluna "matemática" para encontrar a correlação entre eles como "dados ['computador'].corn (dados ['matemática']) ”. Criamos uma variável "resultado" e atribuímos a saída de chamar o ".CORR () ”Método. Em seguida, a função "print ()" é chamada para exibir a correção de ambas as colunas.


Na imagem de saída, você pode ver que a correlação calculada entre as colunas "computador" e "matemática" está em uma figura negativa que mostra a correlação entre essas duas colunas é negativa ou fraca.


Da mesma forma, podemos verificar a correlação entre qualquer uma das duas colunas. Para sua conveniência, encontramos a correlação entre duas outras colunas aqui. Desta vez, escolhemos a primeira coluna “Math” e a segunda coluna “Química” e invocamos o “.corr () ”. Nós armazenamos a saída que será gerada a partir da chamada desta função, eu.e., a correlação de "matemática" e "química". Agora, podemos acessar esta saída utilizando a variável "resultado". A função "print ()" simplesmente imprime a saída.


O resultado gerado a partir deste script pode ser visto na imagem abaixo. Aqui, a correlação calculada entre as colunas "matemática" e "química" está em um valor positivo, o que significa que sua correlação é positiva ou forte.

Exemplo # 2

Também podemos encontrar correlações entre todas as colunas de um quadro de dados usando o Pandas “DataFrame.CORR () ”Método. Neste exemplo, você aprenderá através de sua implementação prática.

Para demonstração, usamos a ferramenta "Spyder", que já instalamos em nosso sistema. Primeiro temos que importar a biblioteca essencial para este método que é pandas. Usamos o script "Importar pandas como PD" para importar pandas para o nosso arquivo python na ferramenta "Spyder", que nos permitirá acessar os módulos de pandas usando o "PD". Nós então usamos o “PD.DataFrame () ”Função para construir um DataFrame. Este DataFrame possui quatro colunas "nome", "pontos", "assistências" e "impostos".

Cada coluna armazena seis valores. A coluna "Nome" possui valores de string que são "A", "B", "C", "X", "Y" e "Z". A coluna "pontos" tem seis valores inteiros que são "17", "22", "15", "14", "24" e "21". A coluna "Assistência" tem seis valores inteiros "2", "13", "9", "4", "12" e "10". A última coluna, "Tax", tem valores "12", "4", "6", "11", "13" e "20". Criamos um objeto DataFrame "Info" e atribuímos a saída de invocar o "PD.DataFrame () ”Método. Portanto, o quadro de quadro de dados resultante gerado a partir do “PD.Dataframe () "será armazenado em" Info ".

Agora, podemos acessar o quadro de dados usando este objeto. Para visualizar esse quadro de dados, empregamos o método "print ()" com o objeto DataFrame "Info" como seu parâmetro.


No programa Python anterior, um quadro de dados com quatro colunas seria exibido no terminal. Como você pode ver na imagem a seguir:


Agora, temos que encontrar a correlação entre todas as colunas do quadro de dados usando o Pandas “DataFrame.CORR () ”Método. Nosso alvo é calcular a correlação entre todas as colunas, então precisamos escrever o nome do DataFrame, que é "informações", com o ".CORR () ”Método. Criamos uma variável "r" para armazenar o resultado, que obteremos chamando a "informação.CORR () ”Método. Finalmente imprimimos o conteúdo armazenado na variável "R", invocando a função "print ()".


Aqui, obtivemos nossa correlação de saída entre as três colunas numéricas do quadro de dados "info". Podemos ver no instantâneo de saída que existe uma correlação negativa entre "pontos" e "imposto". As “assistências” e “impostos” também compartilham uma correlação negativa, enquanto todos os outros pares compartilham uma correlação positiva entre eles. Você pode ter observado que os diagonais têm o valor "1". Isso significa que cada coluna é acoplada com precisão.

Conclusão

Fizemos uma introdução ao pandas “DataFrame.CORR () ”Método. Este método é muito importante no processo de calcular o relacionamento entre diferentes colunas. Realizamos dois exemplos práticos na ferramenta "Spyder". No primeiro exemplo, elaboramos e explicamos o conceito de encontrar a correlação entre duas colunas do quadro de dados, enquanto o outro exemplo se baseia no cálculo da correlação entre todas as colunas do quadro de dados. Certifique -se de seguir todas as etapas realizadas no processo de implementação prática para entender o método de correlação de pandas.