Matriz de confusão em Sklearn Linuxhint

Matriz de confusão em Sklearn Linuxhint
“Uma biblioteca gratuita de aprendizado de máquina construída no Python é chamada de scikit-learn. Inclui várias classificações, regressão e técnicas de agrupamento que podemos utilizar para fazer previsões úteis usando nossos dados. Uma matriz de confusão é uma estatística que determina a correção e a precisão de um modelo. Pode ser usado para resolver problemas de categorização que são binários ou multi-classes. Este artigo discute a matriz de confusão e sua implementação em Sklearn.”

O que é uma matriz de confusão?

A precisão e a correção do modelo são medidas usando a matriz de confusão. Pode ser aplicado a problemas de classificação de classe binária ou múltipla. Muitas métricas são medidas usando as medições da matriz de confusão, mesmo que não seja uma medida direta de desempenho. Uma matriz de confusão é uma matriz multidimensional, onde os valores previstos são representados nas linhas e os valores verdadeiros nas colunas. A variável de destino em um problema de classificação binária terá dois valores, 1 ou 0, referido como valores reais como Verdadeiro ou Falso, respectivamente. As previsões do modelo são referidas como valores esperados.

Fonte: Explorium.Ai

Verdadeiro Positivos (TP)

Os verdadeiros positivos são o número de casos em que o valor real de uma amostra de dados corresponde ao valor previsto.

Verdadeiros negativos (TN)

True Negative é uma estatística que conta o número de casos em que o valor real de uma amostra de dados é zero e o valor previsto também é zero.

Falsos positivos (FP)

Falsos positivos se referem ao número de ocorrências nas quais o valor real de uma amostra de dados é 0, mas o valor previsto é 1.

Falsos negativos (fn)

False Negatives é uma estatística que conta o número de ocorrências nas quais o valor real de uma amostra de dados é 1, mas o valor projetado é 0.

O desempenho do modelo será favorável, com maiores valores de TP e TN e valores mais baixos de FP e FN, com base no significado da terminologia anterior. O modelo deve ser treinado para maximizar TP e TN enquanto minimiza os valores de FP e FN. Se qualquer um, qual de FP e FN devem ser minimizados depende dos requisitos do problema de categorização. Manter falsos negativos ao mínimo será crucial no campo médico.

Por exemplo, suponha que o desafio de classificação seja determinar se o paciente tem ou não uma doença significativa, como câncer ou HIV. Tomemos, por exemplo, se o paciente tem câncer, que é representado por 1, e se o paciente não tem câncer, que é representado por 0. Nesse cenário, reduzir os falsos positivos sobre falsos negativos é geralmente preferível.

Ou seja, se um paciente tem câncer (1) e o modelo prevê um negativo (0) - falsos negativos - o paciente e o diagnóstico podem ser comprometidos. Como resultado, o FN deve diminuir o máximo que viável. Por outro lado, se o paciente não tiver câncer (0), mas o modelo prevê que eles tiveram câncer (1) - falsos positivos - isso terá menos ramificações porque, na maioria dos casos, testes subsequentes serão realizados para doenças cruciais antes que a doença seja confirmada como positiva. Como resultado, os falsos positivos são preferíveis a falsos negativos neste problema.

Benefícios da matriz de confusão

  • Ele demonstra como qualquer modelo de classificação pode ser perplexo ao fazer previsões.
  • A matriz de confusão indica os tipos de erros que estão sendo cometidos pelo seu classificador, além dos erros que estão sendo produzidos.
  • Usando essa quebra, você pode contornar os problemas, confiando inteiramente na precisão da classificação.
  • Cada coluna da matriz de confusão exibe instâncias dessa classe projetada.
  • Cada linha da matriz de confusão mapeia para uma instância de classe real.
  • Ele revela não apenas os erros cometidos por um classificador, mas também os erros que os humanos cometem

Como você calcula matrizes de confusão?

Alistado abaixo estão as etapas para calcular matrizes de confusão:

  • Você deve fazer um conjunto de dados de teste ou validação com valores de resultado esperados.
  • Em seguida, preveja cada linha no seu conjunto de dados de teste.
  • A seguir, são apresentados os resultados e previsões esperados:
  1. O número de suposições corretas para cada classe.
  2. O número total de previsões imprecisas para cada classe é classificado por classe projetada.

Implementação de matriz de confusão em Sklearn

# Importando os rótulos necessários
de Sklearn.Métricas importando confusion_matrix
# os verdadeiros rótulos do conjunto de dados fornecido
y_true = [1, 2, 0, 2, 1, 0]
# os rótulos previstos do conjunto de dados fornecido
y_pred = [1, 0, 1, 2, 0, 1]
# Obtenha a matriz de confusão do conjunto de dados
confusion_matrix (y_true, y_pred)

Saída

Array ([[0, 2, 0],
[1, 1, 0],
[1, 0, 1]])

Conclusão

Aprendemos sobre a matriz de confusão e sua implementação em Sklearn. Sklearn é uma biblioteca ML popular baseada em Python que implementa várias métricas e algoritmos. A matriz de confusão determina as métricas de precisão dos problemas de classificação com base em verdadeiros positivos ou verdadeiros negativos ou falsos positivos ou falsos negativos.