Regressão logística Sklearn

Regressão logística Sklearn

O Python é uma moderna linguagem de programação orientada a objetos de alto nível projetada para ajudar os programadores a criar e escrever códigos fáceis de entender e diretos. É uma linguagem de programação de alto nível simples e fácil, melhor e fácil de entender para iniciantes. Suas estruturas de dados de alto nível integradas, juntamente com a digitação dinâmica e a ligação, tornam-a uma excelente opção para o desenvolvimento rápido de aplicativos. Sua sintaxe simples o torna mais legível, o que reduz o custo de manter o programa. Ele suporta vários pacotes e módulos que enfatizam a reutilização do código e aprimorando a modularidade do programa. Sua extensa biblioteca padrão e vários intérpretes estão disponíveis gratuitamente, bem como online. A capacidade do aumento da produtividade do Python faz com que os programadores se apaixonem pelo idioma.

Além disso, o ciclo de edição, teste e depuração é incrivelmente rápido, pois não há etapa de complicação envolvida. Python simplifica os princípios de aprendizado de máquina para aprender e compreender. Dá uma visão de um pássaro de como passar por um projeto de aprendizado de máquina pequeno ou grande. Este artigo é sobre o que é uma regressão logística e seus classificadores. Vamos começar com os fundamentos da regressão logística.

Definição de regressão logística

Regressão logística é um algoritmo de classificação. Um algoritmo de análise de regressão apropriado da fraternidade do aprendizado de máquina descreve dados. Explica a relação entre várias variáveis, eu.e., nível de razão ou variável independente de intervalo, variável binária ordinal ou nominal dependente. A regressão logística é geralmente usada em modelos estatísticos para entender os dados e a relação entre variáveis ​​dependentes e independentes, prevendo as probabilidades de variáveis ​​dependentes categóricas. À medida que o número de dados aumenta rapidamente, a força do poder de computação e da melhoria do algoritmo está aumentando, aumentando a importância do aprendizado de máquina e da ciência de dados. Em aprendizado de máquina, a classificação se tornou a área essencial e um de seus métodos básicos é a regressão logística. No final deste artigo, você poderá implementar a regressão logística em vários tipos de dados. Vamos começar a aplicar aulas, funções e pacotes apropriados para executar a regressão logística no Python. Um dos pacotes Python comum para regressão logística é Sklearn. Aqui, mostraremos um exemplo prático passo a passo de regressão logística Sklearn em Python para ajudá-lo a entender como implementar a regressão logística Sklearn em Python.

Etapas para implementar a regressão logística Sklearn em Python

Etapa 1: colete os dados

Para começar com um projeto pequeno ou grande, a primeira coisa que você precisa são os dados nos quais você criará um modelo de regressão logística. Aqui está o comando para preparar o modelo para o conjunto de dados.

Etapa 2: importar os pacotes necessários de python

Depois de instalar o DataPrep, a próxima etapa é importar os pacotes necessários para implementar a regressão logística. Aqui, estamos aprendendo sobre o pacote Sklearn, que é basicamente usado para construir o modelo de regressão logística no Python. Os pacotes a seguir precisam ser instalados:

importar pandas como PD
importar numpy como np
importar matplotlib
importar matplotlib.pyplot como plt
Importar Seaborn como SNS
de Sklearn.Pré -processamento de importação LabelEncoder
de Sklearn.Métricas importando confusion_matrix
de Sklearn.métricas importantes make_scorer, precuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classificação_report
de Sklearn.Linear_model Import LogisticRegression
de Sklearn.Model_Selection Importar Train_test_split
De métricas de importação de Sklearn
de Sklearn.Métricas Importar precisão_score
de Imblearn.Over_sampling Importar Smote

Etapa 3: carregue os dados para construir um DataFrame

O próximo passo é capturar o conjunto de dados, para o qual você precisa o seguinte comando para usar:

df = pd.read_csv ("/content/drive/mydrive/covid.CSV ")

Dessa forma, você pode importar os dados de um arquivo externo; No entanto, alternativamente, você pode definir o conjunto de dados na forma de uma matriz.

Etapa 4: Criando a regressão logística após carregar os dados

A próxima etapa é desenvolver a regressão logística no Python depois que os dados foram colocados em um aplicativo Python. Nesta etapa, você precisa definir as variáveis ​​dependentes e independentes. Aqui está como você pode definir a variável:

X = df.Drop ('covid-19', eixo = 1)
y = df ['covid-19']

A variável 'x' representa a variável independente e a variável 'y' representa a variável dependente. Agora aplique a função Train_text_split para definir o tamanho de teste e treinamento do conjunto de dados.

X_train, x_test, y_train, y_test = trens_test_split (x, y, test_size = 0.20)

Etapa 5: aplique regressão logística

Agora aplique a regressão logística seguindo o comando abaixo:

Model = LogisticRegression ()
# Ajustando o modelo
modelo.ajuste (x_train, y_train)
y_pred = modelo.prever (x_test)
acc_loGreg = modelo.pontuação (x_test, y_test)*100

Etapa 6: plote a matriz de confusão

A parte final é plotar a matriz de confusão que mostra a precisão em verdadeira forma positiva e falsa positiva.

confusion_mtx = confusion_matrix (y_test, y_pred)
# plote a matriz de confusão
# plote a matriz de confusão
F, AX = PLT.subparcelas (figSize = (8, 8))
SNS.Heatmap (confusion_mtx, anot = true, linewidths = 0.01, cmap = "verdes", linecolor = "cinza", fmt = '.1f ', ax = ax)
plt.xlabel ("etiqueta prevista")
plt.Ylabel ("True Label")
plt.título ("Matriz de confusão")
plt.mostrar()

Para imprimir a precisão ou, em outras palavras, o relatório de classificação, use o seguinte comando:

print (classificação_report (y_test, y_pred))

Depois de executar todos os comandos, você receberá uma matriz de confusão, bem como um relatório de classificação. Dê uma olhada na saída abaixo.

Matriz de confusão:

Verdadeiro positivo (TP), falso negativo (FN), verdadeiro negativo (TN) e falso positivo (FP) são os quatro valores centrais na matriz de confusão.

Relatório de classificação:

O relatório de classificação fornece a precisão do modelo treinado, que pode ser alcançado usando a fórmula:

Precisão = (tp + tn) / total

Conclusão:

Este artigo nos ensinou a regressão logística e a biblioteca Sklearn em Python. Os dados são explicados e o vínculo entre as variáveis ​​dependentes e independentes é descrito usando regressão logística. A biblioteca Sklearn em Python é usada principalmente em dados estatísticos, onde é necessária previsão ou probabilidade.