Procedimento
Com a ajuda do Scipy Stat Fit, descobriremos como implementar a função STATS FIT () para encontrar a melhor linha de ajuste ou a distribuição dos conjuntos de dados necessários. A sintaxe desta função será exibida e depois será explicada com a ajuda dos parâmetros exigidos por esta função.
Sintaxe
$ estatísticas. norma.ajuste (dados)A linha acima mencionada é a sintaxe para o ajuste do stat (). Esta função utiliza o módulo "norma" do módulo STATS do Scipy. A norma é a duração de qualquer vetor ou a distância do vetor que fala sobre a extensão em que o vetor está espalhado pelo espaço. Os "dados" são o parâmetro de entrada da função que se refere aos dados cuja distribuição ou ajuste queremos calcular.
Exemplo # 01
A função STATS FIT () calcula a distribuição ou diz o tipo de distribuição para um conjunto de dados com base na natureza de seus elementos. Em outras palavras, as estatísticas FIT () encontram o melhor ajuste para os dados para os diferentes tipos de variáveis aleatórias. Para as variáveis independentes e aleatórias, recebemos a “distribuição gaussiana”, que é conhecida por ser a distribuição natural ou normal para as variáveis no conjunto de dados. Este exemplo calculará a distribuição gaussiana para as variáveis no conjunto de dados.
Para qualquer tipo de distribuição, temos que ver os quatro parâmetros necessários como: o parâmetro de localização, a forma da distribuição, a escala e a última é limiar. Todos esses parâmetros contribuem para um tipo de distribuição. A distribuição gaussiana tem a maioria de suas observações em seu pico, que está em torno da média. Para implementar isso, usaremos o "Google Collab", que é um ambiente público e de código aberto que oferece para executar os programas Python com a instalação prévia de todos os seus pacotes. A biblioteca necessária ou o pacote para este exemplo serão estatísticas do Scipy. Então, primeiro, escreveremos o comando “das estatísticas de importação cipy”.
A próxima etapa será gerar novos dados para criar as variáveis aleatórias com a ajuda da norma do módulo STAT como “Data = STATS. norma. RVs (a, b, tamanho = 400, random_state = 140) ”, essa função leva os dois parâmetros“ a ”e o“ b ”para as variáveis independentes normais e o“ tamanho ”para distribuir essas variáveis nos números é selecionado como "400". Agora, usaremos os resultados desta função e passaremos para o parâmetro das “estatísticas. fit () ”para encontrar a melhor distribuição de ajuste para esses dados gerados aleatoriamente.
Na saída da função, gostaríamos de exibir o "parâmetro de localização", que informa onde os dados estão no eixo x e no "parâmetro de escala", que informa quanta dispersão existe nos dados. O código para este exemplo está anexado abaixo.
De estatísticas de importação ccepyA saída exibiu o local e o parâmetro de escala para a distribuição como 1.08 e 0.949 respectivamente.
Exemplo # 02
Agora, usaremos a função STATS FIT () para implementar outro tipo de distribuição para o conjunto de dados com variáveis aleatórias contínuas. Para esse tipo de dados com variáveis distorcidas positivamente, usamos a “distribuição gama”. A assimetria representa quanto a distribuição tem assimetria. A distribuição gama tem três parâmetros tão comuns quanto a distribuição normal e.g., escala e limiar e forma. Vamos implementar esta distribuição. Primeiro, vamos importar o módulo "estatísticas" da biblioteca ccenda. Esta biblioteca é importada para que possamos usar a função "norma" do módulo STATS para gerar os dados aleatórios para a distribuição gama. Então, importe esta biblioteca escrevendo o seguinte comando “das estatísticas de importação cipy”.
O módulo STAT também ajudará a chamar a função fit () para encontrar a distribuição para os dados que geraremos. Agora, após a importação das estatísticas, gerar as variáveis aleatórias contínuas até o tamanho 400 com o parâmetro "a" e passá -lo para a função da norma como "estatísticas. gama. RVs (um tamanho = 400, random_state = 140) ”. Até esta etapa, criamos os dados que queremos encaixar na distribuição gama, pois todas as variáveis nesses dados são variáveis aleatórias contínuas e elas só podem se encaixar na distribuição gama. Em seguida, encaixe esses dados na distribuição gama, passando esses dados para o parâmetro de entrada da função ”estatísticas. norma. ajuste (dados) ”. A partir dessa distribuição, descobriremos e exibiremos os parâmetros de escala, limiar e forma como a saída.
De estatísticas de importação ccepyConclusão
O artigo discute o conceito de encontrar o melhor ajuste ou as melhores distribuições adequadas para os dados ou variáveis geradas aleatoriamente, contínuas ou independentes. Além disso, o artigo discute os parâmetros necessários para a distribuição e demonstra a implementação de dois tipos de distribuições em dois dados diferentes com a ajuda de exemplos.