T-Sne Sklearn

T-Sne Sklearn

“Uma técnica estatística chamada vizinha estocástica distribuída em T coloca cada ponto de dados em um mapa bidimensional ou tridimensional para visualizar dados de alta dimensão. Esta operação é realizada de maneira semelhante pelos métodos de análise de componentes principais (PCA), que também são usados ​​para projetar para diminuir as dimensões de alta dimensão. Este artigo discutirá o T-SNE, como ele difere do PCA e como funciona no Sklearn.”

O que é redução de dimensionalidade?

A redução da dimensionalidade codifica dados multidimensionais (n-dimensões) com recursos abundantes em 2 ou 3 dimensões. Muitos recursos de entidade que precisam ser categorizados são usados ​​em problemas de classificação de aprendizado de máquina. O treinamento de visualização de dados seria mais complexo e os requisitos de armazenamento aumentariam à medida que mais recursos foram usados. Essas características estão frequentemente conectadas. Como resultado, o número de recursos pode ser reduzido para trás. O número de recursos pode ser reduzido se o que os três recursos usados ​​estão conectados. Se apenas um recurso for necessário, os dados espalhados pelo espaço 3D poderão ser projetados em uma linha para produzir dados 1D ou em um plano 2D se forem necessários dois recursos.

O que é T-Sne?

Dados de alta dimensão são projetados em dimensões mais baixas usando a abordagem de aprendizado de máquina não supervisionada conhecida como incorporação estocástica de distribuída em T (T-SNE), criada em 2008 por Laurens van der Maaten e Geoffery Hinton. É empregado principalmente para exploração de dados e visualização de dados de alta dimensão. T-SNE ajuda você a entender a organização dos dados em um espaço de alta dimensão.

Como funciona o T-Sne?

A distribuição de probabilidade dos vizinhos ao redor de cada ponto é modelada usando o algoritmo T-SNE. O grupo de pontos mais próximos de cada ponto nesse contexto é referido como os vizinhos. O modelo para isso no espaço original e de alta dimensão é uma distribuição gaussiana.

Uma distribuição T é usada para simular isso no espaço de saída bidimensional. O objetivo desta técnica é encontrar um mapeamento no espaço 2D que minimize as disparidades entre as duas distribuições de pontos gerais dessas distribuições. O principal fator que influencia o encaixe é conhecido como confusão. O número de vizinhos mais próximos considerados ao combinar as distribuições originais e ajustadas para cada ponto é geralmente equivalente à complexidade.

Como o PCA é diferente de T-Sne

PCA t-sne
É uma técnica linear para redução de dimensão. É uma técnica não linear para redução de dimensão.
Faz um esforço para manter a estrutura geral dos dados. Faz um esforço para manter a estrutura local dos dados
Nenhum hiperparâmetro está envolvido Isso envolve hiperparâmetros como perplexidade, taxa de aprendizado e o número de etapas.
Não lida bem com outliers Pode lidar com outliers.

Implementando T-Sne em Sklearn

# Importação de bibliotecas
importar numpy como np
de Sklearn.múltiplas importações de importação
# Criando o conjunto de dados
X = np.Array ([[0, 0, 0, 1], [0, 1, 1, 1], [1, 0, 1, 0], [1, 1, 1, 0]])
# projetando os dados para reduzir as dimensões
X_projected = tsne (n_components = 2, aprendizagem_rate = 'auto', init = 'aleatória', perplexidade = 3).fit_transform (x)
print ("Nova forma dos dados é", x_projetado.forma)


Saída

A nova forma dos dados é (4, 2)

Conclusão

Aprendemos sobre o algoritmo T-SNE, que é usado para converter dados de alta dimensão em menor e, finalmente, visualizá-los facilmente. Também vimos por que precisamos de algoritmos de redução de dimensionalidade e como o T-SNE é diferente de seus algoritmos alternativos: PCA. Também implementamos o T-SNE em Sklearn usando o módulo "coletor" e os dados 4-dimensionais projetados em 2 dimensões.