Scipy K-Means

Scipy K-Means
A linguagem de programação do Python é a linguagem mais usada nos dias de hoje, já que suas bibliotecas livres de código aberto atraem os desenvolvedores. Iniciantes e desenvolvedores especializados preferem trabalhar em Python, em vez de qualquer outra linguagem de programação de alto nível. Scipy é uma daquelas bibliotecas incríveis de python que facilita a programação. A biblioteca scipy é construída na biblioteca Numpy, estendendo suas funcionalidades e métodos. Aqui, exploraremos o método Scipy K-Means. Para ajudá-lo a entender as funções do algoritmo K-Means em um programa Python, mostraremos alguns exemplos claros e práticos.

O que está agrupando em Python003f?

O conceito geral de agrupamento está criando grupos de tipos semelhantes de dados. É o processo de separar os dados com as mesmas características em diferentes tipos de clusters. Campos de saúde, finanças, varejo e outros usuários geralmente usam as técnicas de agrupamento para executar as diferentes tarefas analíticas. O agrupamento em Python realiza as mesmas funcionalidades com a ajuda de algoritmos extremamente simples. Existem muitos métodos de agrupamento em Python, mas o Scipy fornece apenas dois módulos para agrupamentos, que são o K-Means e o cluster hierarquial. Dedicamos este artigo ao módulo K-Means. Portanto, com a ajuda de exemplos, aprenderemos sobre o agrupamento K-Means da Biblioteca Cipy.

O que é o algoritmo de agrupamento K-Means?

É preciso um conjunto de dados e o número de clusters a serem feitos como entrada e retornar o número especificado de clusters dos dados fornecidos. Segue -se o mecanismo de distância euclidiano para fazer os aglomerados. Primeiro, o algoritmo K-Means encontra o centróide do cluster e, em seguida, categoriza todos os itens em sua média mais próxima, repete o processo para o número de tempos de cluster e cria o número especificado de clusters dos dados fornecidos.

O que é agrupamento Scipy K-Means?

A biblioteca Scipy fornece uma técnica de agrupamento K-Means, que é a mesma abordagem de particionamento, onde cada cluster dos dados é representado com o centróide calculado. No centróide computado, todos os pontos de dados têm a mesma distância média do centro do cluster. A biblioteca Scipy oferece dois pacotes de agrupamento, VQ e hierarquia, que oferecem diferentes métodos de agrupamento. O cluster.A embalagem de agrupamento VQ é o módulo de quantização de vetores que fornece o método de agrupamento K-Means. A quantização de vetores é muito útil na distorção e redução da precisão da melhoria. Para fazer clusters com o método K-Means da biblioteca Scipy, precisamos seguir as seguintes etapas:

Primeiro, instale o pacote scipy com a seguinte declaração:

É muito importante ter todas as bibliotecas instaladas antes de usar qualquer método de função da biblioteca. Por isso, se você ainda não instalou a biblioteca scipy, instale -a com a instrução PIP Install Scipy. Depois disso, forneça os dados para fazer o cluster e o número do cluster que deve ser feito também. Em seguida, normalize os dados com a seguinte declaração:

Aqui, a função esbranquiçada dos pacotes VQ é usada para normalizar os dados. O parâmetro "dados" representa os dados de entrada e o parâmetro "CF" é usado para verificar se os dados de entrada contêm apenas números finitos ou não. O próximo passo é localizar o centróide dos dados fornecidos. A declaração a seguir é usada para calcular o centróide dos dados:

Os parâmetros "dados" e "cf" são os mesmos que a função branca e representam as mesmas informações. Os parâmetros adicionais são "k", "iterações" e "limiar", onde k representa o número de clusters a serem feitos, a iteração representa o número de iterações a serem executadas pela função e o limiar representa o valor limiar para terminação de função. Agora, vamos demonstrar um exemplo para que possamos praticamente ver como a função K-means funciona.

Exemplo:

Aqui, vamos dar um exemplo para demonstrar as etapas que explicamos anteriormente. Quando você tem um exemplo prático completo, você pode entender facilmente o conceito. Vamos nos referir ao código fornecido na captura de tela a seguir:

Desde que já instalamos a biblioteca scipy, não há necessidade de instalá -la explicitamente. A primeira linha de código é usada para importar a biblioteca Numpy como "NP" no programa. Depois disso, o círculo.conjunto.O pacote VQ é importado para o programa para usar os módulos Whiten, Kmeans e VQ. A variável "dados" é inicializada com uma matriz 2D que é então passada para a função esbranquiçada para normalização de dados. Os dados normalizados podem ser visualizados na saída, pois a instrução de impressão é usada para exibi -lo.

A função Kmeans () calcula o centróide dos dados fornecidos. Os dados fornecidos são passados ​​para a função Kmeans com o número de clusters a serem feitos. O valor centróide para cada item de dados também pode ser visualizado na saída, pois a instrução de impressão é usada para exibi -los. A média dos dados também é obtida e exibida na saída com a declaração de impressão.

Finalmente, para agrupamento, a função VQ é usada. Os dados fornecidos e os valores do centróide calculado são passados ​​para a função VQ e exibidos na saída usando a instrução de impressão. Para obter a saída completa em um só lugar, você pode consultar a seguinte captura de tela:

Como você pode ver, primeiro temos os dados normalizados que são retornados pela função Whiten. Então, temos os centróides para cada valor de dados. Depois disso, a média dos dados é fornecida, seguida pelos índices de cluster. Você pode executar este código em qualquer compilador Python em seu sistema como Spyder, Pypy, Júpiter, etc. Você também pode usar os compiladores on -line como a colaboratório, que também é conhecida como Colab.

Conclusão

Este artigo é dedicado ao algoritmo de agrupamento K-Means. Aqui, aprendemos sobre agrupamento, agrupamento K-Means e aglomerados de K-Means com a biblioteca Scipy. Primeiro, aprendemos o conceito básico de agrupamento. Em seguida, exploramos o método específico de cluster k-means. Finalmente, aprendemos o método K-Means completo fornecido pela Scipy Library. Também demonstramos um exemplo para explicar cada etapa.