As estatísticas scepy se encaixam

As estatísticas scepy se encaixam
O Python é uma linguagem de programação de software orientada a objetos e de alto nível que fornece uma extensa lista de pacotes que ajudam seu usuário a executar programas de software com mais eficiência. Este idioma tem seu aplicativo em quase todos os campos de vida onde quer que a automação seja necessária através do software. Isso se deve aos seus poderes matemáticos e computacionais que facilitam a implementação de diferentes conceitos para os programadores. Scipy contribui para o pacote da biblioteca que o Python oferece. Este pacote de biblioteca oferece seus serviços, fornecendo várias funções internas no campo de aprendizado de máquina, otimizações e análise de dados. O Scipy Stat Fit é a função do círculo que usa o atributo estatístico ou o módulo da biblioteca cipy e ajuda a encontrar o melhor ajuste para os conjuntos de dados. O melhor ajuste aqui especifica a distribuição dos dados em um limite de decisão específico.

Procedimento

Com a ajuda do Scipy Stat Fit, descobriremos como implementar a função STATS FIT () para encontrar a melhor linha de ajuste ou a distribuição dos conjuntos de dados necessários. A sintaxe desta função será exibida e depois será explicada com a ajuda dos parâmetros exigidos por esta função.

Sintaxe

$ estatísticas. norma.ajuste (dados)

A linha acima mencionada é a sintaxe para o ajuste do stat (). Esta função utiliza o módulo "norma" do módulo STATS do Scipy. A norma é a duração de qualquer vetor ou a distância do vetor que fala sobre a extensão em que o vetor está espalhado pelo espaço. Os "dados" são o parâmetro de entrada da função que se refere aos dados cuja distribuição ou ajuste queremos calcular.

Exemplo # 01

A função STATS FIT () calcula a distribuição ou diz o tipo de distribuição para um conjunto de dados com base na natureza de seus elementos. Em outras palavras, as estatísticas FIT () encontram o melhor ajuste para os dados para os diferentes tipos de variáveis ​​aleatórias. Para as variáveis ​​independentes e aleatórias, recebemos a “distribuição gaussiana”, que é conhecida por ser a distribuição natural ou normal para as variáveis ​​no conjunto de dados. Este exemplo calculará a distribuição gaussiana para as variáveis ​​no conjunto de dados.

Para qualquer tipo de distribuição, temos que ver os quatro parâmetros necessários como: o parâmetro de localização, a forma da distribuição, a escala e a última é limiar. Todos esses parâmetros contribuem para um tipo de distribuição. A distribuição gaussiana tem a maioria de suas observações em seu pico, que está em torno da média. Para implementar isso, usaremos o "Google Collab", que é um ambiente público e de código aberto que oferece para executar os programas Python com a instalação prévia de todos os seus pacotes. A biblioteca necessária ou o pacote para este exemplo serão estatísticas do Scipy. Então, primeiro, escreveremos o comando “das estatísticas de importação cipy”.

A próxima etapa será gerar novos dados para criar as variáveis ​​aleatórias com a ajuda da norma do módulo STAT como “Data = STATS. norma. RVs (a, b, tamanho = 400, random_state = 140) ”, essa função leva os dois parâmetros“ a ”e o“ b ”para as variáveis ​​independentes normais e o“ tamanho ”para distribuir essas variáveis ​​nos números é selecionado como "400". Agora, usaremos os resultados desta função e passaremos para o parâmetro das “estatísticas. fit () ”para encontrar a melhor distribuição de ajuste para esses dados gerados aleatoriamente.

Na saída da função, gostaríamos de exibir o "parâmetro de localização", que informa onde os dados estão no eixo x e no "parâmetro de escala", que informa quanta dispersão existe nos dados. O código para este exemplo está anexado abaixo.

De estatísticas de importação ccepy
a = 1
b = 1
dados = estatísticas.norma.RVs (a, b, tamanho = 400, random_state = 140)
Localização, escala = estatísticas.norma.ajuste (dados)
Imprimir (localização)
Imprimir (escala)

A saída exibiu o local e o parâmetro de escala para a distribuição como 1.08 e 0.949 respectivamente.

Exemplo # 02

Agora, usaremos a função STATS FIT () para implementar outro tipo de distribuição para o conjunto de dados com variáveis ​​aleatórias contínuas. Para esse tipo de dados com variáveis ​​distorcidas positivamente, usamos a “distribuição gama”. A assimetria representa quanto a distribuição tem assimetria. A distribuição gama tem três parâmetros tão comuns quanto a distribuição normal e.g., escala e limiar e forma. Vamos implementar esta distribuição. Primeiro, vamos importar o módulo "estatísticas" da biblioteca ccenda. Esta biblioteca é importada para que possamos usar a função "norma" do módulo STATS para gerar os dados aleatórios para a distribuição gama. Então, importe esta biblioteca escrevendo o seguinte comando “das estatísticas de importação cipy”.

O módulo STAT também ajudará a chamar a função fit () para encontrar a distribuição para os dados que geraremos. Agora, após a importação das estatísticas, gerar as variáveis ​​aleatórias contínuas até o tamanho 400 com o parâmetro "a" e passá -lo para a função da norma como "estatísticas. gama. RVs (um tamanho = 400, random_state = 140) ”. Até esta etapa, criamos os dados que queremos encaixar na distribuição gama, pois todas as variáveis ​​nesses dados são variáveis ​​aleatórias contínuas e elas só podem se encaixar na distribuição gama. Em seguida, encaixe esses dados na distribuição gama, passando esses dados para o parâmetro de entrada da função ”estatísticas. norma. ajuste (dados) ”. A partir dessa distribuição, descobriremos e exibiremos os parâmetros de escala, limiar e forma como a saída.

De estatísticas de importação ccepy
a = 1.
random_data = estatísticas.gama.RVs (a, tamanho = 400, random_state = 140)
forma, escala, limiar = estatísticas.gama.FIT (Random_data)
Imprimir (forma)
Imprimir (escala)
Imprimir (limiar)

Conclusão

O artigo discute o conceito de encontrar o melhor ajuste ou as melhores distribuições adequadas para os dados ou variáveis ​​geradas aleatoriamente, contínuas ou independentes. Além disso, o artigo discute os parâmetros necessários para a distribuição e demonstra a implementação de dois tipos de distribuições em dois dados diferentes com a ajuda de exemplos.