Mapa do cluster marítimo

Mapa do cluster marítimo

Seaborn é um módulo de visualização notável para Python que permite plotar visuais estatísticos. É baseado no software Matplotlib e está firmemente conectado às estruturas de dados de pandas. Em uma aprendizagem não supervisionada, as técnicas de agrupamento auxiliam na aquisição de dados estruturados. Neste artigo, veremos o que é um mapa de cluster e como construir e usar isso para uma variedade de propósitos.

Sintaxe do mapa do cluster em Seaborn

Temos uma sintaxe simples para o mapa de cluster marítimo aqui:

1
Seancen.clustermap (dados ,, standard_scale = nenhum, figSize = (6, 8), ** kwargs)

Abaixo, explicamos o parâmetro passado dentro da função de cluster marítima junto com alguns parâmetros opcionais.

dados: Para agrupamento, dados retangulares são usados. NAS não são permitidos.

pivot_kws: Se os dados estiverem em um quadro de dados arrumados, você poderá usar os parâmetros de palavra -chave para fazer um quadro de dados retangular com um pivô.

método: Para calcular clusters, aplique a abordagem de ligação. Para mais detalhes, consulte a documentação para o Scipy.conjunto.hierarquia.Linkage ().

métrica: Os dados devem ser medidos em termos de distância. Mais parâmetros podem ser encontrados no círculo.espacial.distância.documentação pdist (). Você pode criar todas as matrizes de ligação manualmente e fornecê -la como uma linha. O Linkage coletivo usa as métricas (ou metodologias) para linhas e colunas.

z_score: Se os escores Z devem ou não ser calculados para as colunas ou linhas. As pontuações z são calculadas como z = (x - média)/std, o que significa que os valores de cada linha (de coluna) serão deduzidos da média da linha (coluna) e depois divididos pelo desvio padrão da linha (coluna) (coluna). Isso garante uma média de 0 e uma variação de 1 para cada linha (coluna).

Standard_Scale: Se deve ou não normalizar essa dimensão, significa subtrair o mínimo e dividir cada linha ou coluna pelo seu máximo.

figSize: O tamanho geral da figura que inclui largura e a altura.

linha, col _cluster: Se for verdade, as linhas e colunas serão agrupadas.

linha, col _colors: As cores para rotular as linhas ou colunas. Pode ser usado para ver se os dados dentro de uma coleção estão agrupados coletivamente. Para vários níveis de rotulagem de cores, você pode usar as listas empilhadas ou um quadro de dados se entregue na forma de um panda. DataFrame ou pandas são boas opções. Os rótulos de cores são derivados dos nomes de campos dos quadros de dados ou do nome da série. As cores do quadro/série também estão correlacionadas ao conjunto de dados por índice, garantindo que as cores sejam apresentadas na sequência adequada.

dendrogram, cores _ratio: A porcentagem do tamanho gráfico é dedicada às duas seções de borda. Quando um par é especificado, ele se refere às relações de linha e col.

CBAR_POS: No diagrama, os eixos da barra colorida estão nas posições corretas. A barra de color.

Kwargs: O Heatmap recebe todos os outros parâmetros de palavra -chave ().

Construiremos um mapa de calor usando os aglomerados hierárquicos através da função de mapa de cluster do Seaborn. Seaborn's ClusterMap é uma função realmente útil. Mostraremos como utilizá -lo com alguns exemplos:

Exemplo 1:

O mapa de cluster do SeaBorn é um gráfico de matriz que permite visualizar seus elementos da matriz como um mapa de calor enquanto exibe simultaneamente um agrupamento de suas linhas e colunas. No exemplo subsequente, trouxemos as bibliotecas necessárias. Em seguida, criamos um quadro de dados dos funcionários que inclui seus nomes, IDs, idade e salário. Em seguida, convertemos esse quadro de dados em pandas usando o PD.Função de DataFrame. Definimos o índice do funcionário_data pelo campo de nome através da função definida.

Depois disso, criamos um mapa de cluster desse quadro de dados chamando a função do cluster Seaborn e passando o funcionário_data para essa função. Outro argumento de palavra -chave, Annot, é usado e está definido como true. Este parâmetro nos permite ver os números reais exibidos no mapa de calor do mapa de cluster.

A saída do mapa do cluster está na figura a seguir. Observe que nossas linhas e colunas são reorganizadas por Seaborn:

Exemplo 2:

Vamos usar o conjunto de dados de amostra "mpg" para criar um mapa de cluster. Devemos filtrar os dados que enviamos para esses mapas de cluster para o número de colunas apenas no quadro de dados.

Comece com a importação das bibliotecas necessárias. Carregamos o conjunto de dados de "mpg" dentro da variável "dataframe_mpg". Além disso, usamos a função Dropna para remover as linhas nulas dentro do quadro de dados. Imprimimos o nome da coluna dentro do quadro de dados "MPG" junto com o tamanho da coluna. Em seguida, temos uma função de mapa de cluster, onde todo o quadro de dados "mpg" é passado com as colunas especificadas.

As três colunas são mostradas no console.

Quando executamos o código anterior, vemos um mapa de cluster com apenas uma coluna com uma cor clara. Isso ocorre porque as escalas para essas várias colunas são diferentes.

Exemplo 3:

Existem várias opções para escalar os dados dentro da função do mapa de cluster. Mas um método simples é utilizar o argumento de escala padrão. Se queremos escalar cada linha, devemos passar um valor de zero como argumento. Se quisermos escalar cada coluna, o valor será 1. Agora, temos um valor de escala de 1. Além disso, passamos um argumento de método dentro da função de cluster que atribuiu um valor como único. A string pode ser passada como um único valor, que é uma ligação mínima.

O mapa do cluster de quadro de dados "Iris" é um pouco diferente na figura ao passarmos uma escala e parâmetros de método.

Exemplo 4:

Aqui, adicionamos o parâmetro row_color dentro da função do mapa de cluster marítima. Atribuímos cada cor às espécies de campo e extraímos as informações da coluna da espécie do quadro de dados pinguins.

Conclusão

Agora, você pode estabelecer o mapa do cluster marítimo, pois o explicamos com alguns exemplos dos diferentes parâmetros passados. O CLUTERMMAP de Seaborn também tem muitas alternativas para calcular uma grade de comprimento ou semelhança com os dados para criar um mapa de calor.