O que é regressão linear?
A regressão linear é um algoritmo de aprendizado de máquina supervisionado simples, porém eficaz, para prever variáveis contínuas. A regressão linear procura determinar como a variável de entrada (variável explicativa) varia da variável de saída (variável de resposta). Muitos algoritmos avançados de aprendizado de máquina supervisionados são baseados em conceitos de regressão linear. A regressão linear é comumente usada em problemas de aprendizado de máquina para prever variáveis contínuas em que o alvo e as variáveis de recurso têm um relacionamento linear.
A seguir, são apresentados os principais componentes de uma regressão linear simples: variável de entrada contínua, variável de resposta contínua e as suposições de regressão linear são atendidas.
Suposições de regressão linear:
Como funciona a regressão linear?
Um modelo de regressão linear tenta ajustar uma linha que passa pelo número mais significativo de pontos, minimizando a distância quadrada (função de custo) dos pontos para os valores de linha ajustados, dado um conjunto de entradas de pontos de dados (x) e respostas (y).
Como resultado, a função de custo é finalmente minimizada. A função de custo para a regressão linear é geralmente Erro ao quadrado médio:
A equação de regressão é escrita como y = β1X + βo.
O termo c representa a interceptação, m representa a inclinação da linha de regressão, x representa a variável de entrada e y representa o valor previsto da variável de resposta.
Sabemos pela matemática básica que uma linha reta é identificada por dois parâmetros: inclinação e interceptação. O algoritmo de regressão linear seleciona alguns parâmetros iniciais e os atualiza continuamente para minimizar o desvio padrão. Abaixo está a imagem mostrando a linha de regressão (azul), os desvios (verde) e os pontos de dados (vermelho).
A regressão linear também pode ser estendida a várias variáveis de entrada, e a abordagem permanece exatamente a mesma. A equação da linha para várias variáveis é representada por:
Uma demonstração sobre regressão linear
Vamos prever uma variável de destino usando uma única variável de entrada. O exemplo abaixo e o conjunto de dados são do Scikit-Learn documentação oficial. Scikit-Learn é uma biblioteca amplamente usada para o desenvolvimento de modelos de aprendizado de máquina.
importar matplotlib.pyplot como pltSaída
Erro ao quadrado médio: 2548.07O que é regressão logística?
Regressão logística é um algoritmo de classificação. É um algoritmo de tomada de decisão, o que significa que procura os limites entre duas classes e simula as probabilidades de uma única classe. Como a entrada é discreta e pode levar dois valores, ela é normalmente usada para classificação binária.
A variável alvo na regressão linear é contínua, o que significa que pode assumir qualquer valor de número real, enquanto, na regressão logística, queremos que nossa saída seja probabilidade (entre 0 e 1). A regressão logística é derivada da regressão linear, mas adiciona uma camada extra de função sigmóide para garantir que a saída permaneça entre 0 e 1.
Como funciona a regressão logística?
A regressão logística é um algoritmo de aprendizado de máquina simples e amplamente usado, especialmente para problemas de classificação binária. Esta extensão do algoritmo de regressão linear usa uma função de ativação sigmóide para limitar a variável de saída entre 0 e 1. Suponha que precisamos construir um modelo de aprendizado de máquina; em seguida, cada ponto de dados de variável independente será x1 * w1 + x2 * w2… e assim por diante, e isso dará um valor entre 0 e 1 quando passado pela função de ativação se usarmos 0.50 como um valor ou limiar decisivo. Então, qualquer resultado maior que 0.5 é considerado um 1 e qualquer resultado menor que esse é considerado 0. A função de ativação sigmóide é representada como:
Podemos ver no gráfico que a variável de saída é restrita entre 0 e 1.
Em cenários de mais de duas classes, usamos um vs. Toda a abordagem de classificação. Dividir o conjunto de dados de várias classes em vários problemas de classificação binária é o que um vs. Descanso é tudo sobre.
Em cada problema de classificação binária, um classificador binário é treinado e as previsões são feitas usando o modelo com a maior confiança.
Implementando a regressão logística
Abaixo está o script da documentação oficial do Scikit-Learn para classificar a flor da íris com base em vários recursos.
>>> De Sklearn.conjuntos de dados importando load_irisConclusão
Passamos pela introdução da regressão logística e linear, discutimos a matemática subjacente envolvida e passamos pela parte da implementação de cada um deles. Podemos concluir que a regressão linear ajuda a prever variáveis contínuas, enquanto a regressão logística é usada no caso de variáveis de destino discretas. A regressão logística faz isso aplicando a função de ativação sigmóide na equação de regressão linear.