Histogramas são representações visuais de uma coleção de distribuição contínua de dados. Um histograma divide os dados em intervalos ou caixas (normalmente no eixo x), com o número de pontos de dados caindo em cada compartimento igual à altura da barra além daquela bin. Essas caixas não são todas do mesmo tamanho, mas estão próximas umas das outras (sem lacunas). Além disso, as larguras dessas caixas não são necessariamente iguais, mas elas estão próximas (sem lacunas).
Examinaremos a explicação da trama do histograma marítima neste artigo, que ajudará você a visualizar a distribuição de dados em ciência de dados e aplicativos de aprendizado de máquina. Este artigo mostrará como usar o Seaborn.Método Histplot () para criar uma variedade de vários tipos de displays de histograma. Também explicaremos o que significa que cada um dos argumentos da função do histograma marítimo.
Outra ferramenta para examinar as distribuições de dados é um gráfico de densidade e o gráfico de densidade do kernel é outro nome para este. É um histograma suavizado. Os picos de um enredo de densidade mostram onde os valores são acumulados ao longo do tempo. Métodos de suavização estão disponíveis em vários tamanhos e formas. Um dos métodos para suavizar um histograma é a estimativa de densidade do kernel (KDE).
Sintaxe do Histlot Seaborn
O método Histplot de Seaborn tem uma sintaxe muito direta. O Seaorn.O método HISTPLOT () é uma função especializada para produzir histogramas em Seaborn.
SNS.HisPlot (data = dataframe_name, x = eixo x)Normalmente, usamos o argumento de dados dentro dos parênteses para identificar o quadro de dados em que queremos trabalhar e o argumento X para especificar a variável específica que queremos plotar. Existem mais alguns argumentos que poderíamos usar para alterar o comportamento da função Histplot ().
KDE: Você pode inserir uma linha de “estimativa de densidade do kernel” no topo do seu histograma usando a opção KDE. Uma linha KDE é uma linha contínua que descreve a densidade de dados. As linhas KDE são uma representação visual de como os dados são distribuídos que podem ser usados em vez de histogramas. No entanto, as linhas KDE às vezes são usadas em conjunto com histogramas. Como argumento, essa opção leva uma expressão booleana (i.e., Verdadeiro ou falso).
matiz: Este parâmetro ajuda no mapeamento de cores de variáveis para parcelas.
pesos: Os pesos ajudam a determinar a influência de todos os dados definidos na contagem de cada compartimento.
Estado: As quatro categorias de métodos estatísticos empregados para calcular os valores de bin são "contagem", "frequência", "densidade" e "probabilidade".
BIN: O parâmetro da caixa que especifica o número de caixas para usar.
Binwidth: A largura da lixeira pode ser ajustada aqui.
BinRange: Os valores mais baixos e maiores para arestas podem ser definidos usando esta opção.
paleta: Para o mapeamento semântico de matiz, podemos escolher nossos tons.
cor: Se nenhum mapeamento de matiz estiver disponível, esse argumento nos permitirá escolher uma única cor de Matplotlib.
Exemplo 1:
Aqui, criamos um histograma simples usando os parâmetros padrão. Nós importamos as bibliotecas que nos ajudam a gerar o enredo. Depois disso, definimos o estilo de Seaborn, usando o parâmetro de estilo como DarkGrid na função Set. Para o Histplot, carregamos um conjunto de dados "mpg". A função de Histplot do Seaborn é então invocada onde os dados e os parâmetros X são passados e atribuídos um valor. O parâmetro X leva o nome de campo Aceleração do conjunto de dados "mpg".
A representação simples da plota de histograma é a seguinte:
Exemplo 2:
Estamos usando a função RANDN para a visualização da plotagem do histograma. Para isso, incluímos as bibliotecas necessárias necessárias para a implementação do código. Em seguida, criamos um conjunto de dados para o número aleatório e a função RANDN gera números aleatórios dentro do intervalo especificado. A função Seaborn Histplot toma o parâmetro de dados como "número", que é o conjunto de dados criado com a função RANDN e o valor do parâmetro KDE para true.
A seguir, a visualização do histograma com a linha de curva KDE:
Exemplo 3:
O conjunto de dados de amostra “Iris” do pacote SeaBorn é usado neste exemplo. Adicionamos as bibliotecas Matplotlib, Seaborn, Panda e Numpy essenciais para criar o enredo do histograma. Em seguida, criamos uma variável df_iris onde o conjunto de dados de amostra é carregado. O Seaborn Histplot pega a íris do conjunto de dados dentro dele e define o parâmetro x como o sepal_length do conjunto de dados da íris, o valor KDE como true, e as espécies de variáveis semânticas são mapeadas usando o parâmetro Hue.
As distribuições de comprimento sépico de várias espécies são vistas no seguinte gráfico de histograma único:
Exemplo 4:
Neste exemplo, o histograma é normalizado para que a altura de cada barra represente uma probabilidade em vez de uma contagem de pontos de dados. Aqui, carregamos um conjunto de dados de amostra "DOTS", que possui algumas características diferentes. Entre essas características, definimos o parâmetro X como Firing_rate na função Histplot dos pontos do conjunto de dados. Também especificamos o parâmetro STAT como uma probabilidade e o valor discreto para true, que combina as quebras de lixeira com barras centradas em seu respectivo valor para representar os valores distintos em um conjunto de dados. Por fim, o parâmetro de cor é definido para a cor verde.
A representação do gráfico do histograma com a probabilidade está no seguinte instantâneo:
Exemplo 5:
Podemos construir a segunda forma de um histograma. O histograma bivariado mostra duas variáveis usando os eixos X e Y. Este exemplo ilustra um histograma bivariado com valor de bin com uma barra de cores para indicar os valores. O mapa de colorir é usado para exibir a barra de cores. Inserimos o quadro de dados dos pinguins como o conjunto de dados. As variáveis x e y, assim como as caixas, os parâmetros discretos e de escala de log, são então especificados na função Histplot. Para vincular a barra de cores ao enredo, também demos a opção CBAR. O parâmetro discreto é usado para lidar com lacunas de histograma e a escala de log é usada para definir uma escala de log no eixo de dados.
A visualização do gráfico de histograma bivariada é mostrada na figura a seguir:
Conclusão
Explicamos o Histplot em Seaborn. Utilizamos a função Histplot () neste post para passar por cima do guia da plotagem do histograma marítimo. Examinamos uma variedade de instâncias de criação de histograma para circunstâncias estatísticas multivariadas, bem como as estratégias de binning.