Covariância de pandas

Covariância de pandas
O método Pandas Cov () calcula a covariância emparelhada entre a série de dados de dados. O DataFrame retornado é a matriz de covariância das colunas do DataFrame. A computação exclui automaticamente as entradas NA e NULL. Essa técnica é comumente usada para avaliar os dados da série temporal para determinar a associação entre várias medidas ao longo do tempo.

A sintaxe para este método é a seguinte:

Aqui, os "períodos min" determina o menor número de ocorrências necessárias para cada par de colunas para fornecer um resultado válido.

Você aprenderá e entenderá esse método através da demonstração prática de códigos neste artigo.

Exemplo 1

Esta ilustração trata de encontrar a covariância entre as colunas de um DataFrame. Vamos começar a aprender sua implementação prática.

A primeira e mais necessária tarefa é encontrar uma ferramenta compatível com sua máquina e suporta a linguagem Python. Para nossos requisitos, a ferramenta “Spyder” é encontrada a mais apropriada. Então, temos que baixar, instalar e finalmente iniciar a ferramenta. Depois que a interface é exibida, abrimos um novo arquivo clicando no botão "Arquivo" e escolhendo a opção "Novo arquivo". Um novo arquivo com o “.A extensão py ”é aberta. O ".py "refere -se ao arquivo" python ".

Agora, comece a escrever o código Python. Antes de começarmos com nosso código principal, precisamos obter algumas bibliotecas necessárias neste arquivo python. Para o presente tópico, não precisamos de muitas bibliotecas, mas apenas um único pacote que é "pandas". Então, escrevemos o código "Importar pandas como PD", que importa todos os recursos dos pandas em nosso arquivo python. Podemos acessá -los usando o "PD" em vez de "pandas" em todo o script.

Como temos que calcular a covariância entre as colunas de um quadro de dados, somos obrigados a ter um quadro de dados de pandas onde exercemos esse método. Para construir um quadro de dados, os pandas nos fornecem um “PD.DataFrame () ”função. Como já sabemos que "PD" é o "pandas", acessamos o método do pandas. O "DataFrame ()" é a palavra -chave dessa função que, quando invocada, cria um quadro de dados. Geramos um DataFrame usando este “PD.DataFrame () ”e inicializou com três colunas -“ alfa ”,“ beta ”e“ gama ”.

Nossa primeira coluna “Alpha” armazena seis valores que são “3”, “4”, “1”, “10”, “5” e “7”. A segunda coluna "beta" detém seis valores que são "12", "2", "8", "13", "4" e "5". A terceira e a última coluna “Gamma” têm os valores “4”, “6”, “12”, “9”, “3” e “10”. Todas essas colunas armazenam o tipo inteiro de valores e têm o mesmo comprimento que é 6.

Agora, para armazenar esse quadro de dados, criamos um objeto DataFrame ou uma variável "grau". Essa variável "grau" atribui a saída gerada a partir de chamando os pandas "PD.DataFrame () ”Método. Então, quando chamamos o “PD.DataFrame () ”Método, um DataFrame de pandas é criado e armazenado em“ Grade ”. Podemos acessar o quadro de dados com este objeto. Geramos o quadro de dados e o armazenamos. Agora, que tal exibi -lo? Para exibir o quadro de dados no terminal, temos um método "print ()" muito simples e útil. Este método pega a variável, função ou declaração como seu parâmetro e simplesmente o exibe no terminal. Nós o escrevemos como "Print (Grade)" e exibirá o DataFrame.

Quando clicamos no botão "Executar arquivo" na ferramenta "Spyder" ou pressionar as teclas "Shift+Enter", um DataFrame com três colunas e seis linhas é exibido no terminal.

Agora, precisamos executar nossa tarefa principal, onde criamos esse quadro de dados que calcula a covariância. Para calcular a covariância entre todas as colunas deste quadro de dados, temos um método fornecido por pandas “Cov ()”. Para utilizar esse método, chamamos de “.Método COV () ”com o nome do DataFrame“ Grade.cov () ”. Isso calcula a covariância no quadro de dados fornecido. Em seguida, colocamos esse método entre os parênteses do método "print ()" para exibir o quadro de dados com covariância calculada em todas as suas colunas. Caso contrário, você pode criar uma variável e armazenar a covariância calculada nela e exibi -la usando o método "print ()".

A execução do script explicada anteriormente nos leva uma matriz com covariância calculada entre todas as colunas do DataFrame "Grade". Você pode ver que todos os valores de covariância são positivos.

Exemplo 2

Agora, veremos o que acontece quando tivermos alguns valores de “nan” (não um número) em nosso quadro de dados e precisamos calcular a covariância nesse quadro de dados. Quando o DataFrame possui qualquer valores "nan", a função "cov ()" ignora esses valores "nan" e calcula a covariância entre o restante dos valores.

Para esse fim, utilizamos o quadro de dados criado anteriormente e o modificamos de acordo com nossos requisitos. Mudamos um valor de cada coluna do DataFrame para um valor "nenhum". O segundo valor da coluna "Alpha" é alterado para "nenhum", o segundo valor da coluna "beta" é alterado para "nenhum" e o quinto valor da coluna "Gamma" também é alterado para "nenhum". Em seguida, simplesmente exibimos o quadro de dados modificado com a função "print ()".

É assim que nosso quadro de dados atualizado se parece com os valores de nan.

Calculamos sua covariância agora. Simplesmente invocamos a função "COV ()" com o nome do DataFrame e passamos essa função como um parâmetro para o método "print ()" para exibir a covariância calculada com valores "nan".

Quando executamos o script mencionado anteriormente, ele nos exibe a covariância calculada para todas as colunas no quadro de dados em que, depois de ignorar os valores "nan", a covariância entre aquelas colunas com valores "nan" é negativa é negativa.

Exemplo 3

Você aprendeu a calcular a covariância entre todas as colunas do quadro de dados com ou sem nenhum valores "nan". Aqui, vamos te familiarizar com outra técnica de usar a função "cov ()". Esta técnica está calculando a covariância entre duas séries de pandas. Usamos o quadro de dados que criamos na primeira ilustração deste guia. A partir deste quadro de dados, criamos duas séries de pandas.

Para criar uma série, empregamos o “PD.Série () ”função. Entre seus aparelhos, você pode definir os valores manualmente, mas, em nossa ilustração, criamos a série a partir do DataFrame "Grade" criado anteriormente. Então, fornecemos o nome da coluna com o nome de DataFrame entre o “PD.Série () ”função como“ PD.Série (grau ['alfa']) ". Em seguida, armazenamos esta série em uma variável "V1". Criamos outra série com as mesmas etapas usando a coluna Dataframe "Gamma" do "Grade" desta vez como "PD.Série (grau ['gama']) e armazená -la na variável “V2”.

Utilizamos o método "print ()" para imprimir as duas séries "v1" e "v2". Na última etapa, calculamos a covariância invocando o método "Cov ()". Escreva o título da primeira série com o “.Cov () ”função e depois a segunda série dentro de seus aparelhos como“ V1.COV (V2) ”. Passe isso como um parâmetro para o método "print ()" para exibi -lo.

Isso nos produz a seguinte saída com a covariância calculada entre a série Pandas.

Conclusão

Cálculo da covariância entre todas as colunas do quadro de dados ou entre as duas séries criadas a partir do quadro de dados pode ser realizada com uma função simples e eficaz dos pandas - "Cov ()". Este artigo forneceu a implementação prática de códigos Python executados na ferramenta "Spyder". A primeira ilustração foi explicada a você para estimar a covariância entre as colunas do Pandas Dataframe. O segundo exemplo foi baseado no aprendizado do cálculo de covariância com valores "nan". E o último exemplo focou em encontrar a covariância entre duas séries de pandas. Elaboramos todos os detalhes menores neste artigo para tornar o aprendizado divertido para você.