O que é regressão linear?
Na ciência dos dados, a regressão linear é um modelo de aprendizado de máquina supervisionado que tenta modelar uma relação linear entre variáveis dependentes (y) e variáveis independentes (x). Toda observação avaliada com um modelo, o valor real do alvo (Y) é comparado ao valor previsto do alvo (Y), e as principais diferenças nesses valores são chamadas de resíduos. O modelo de regressão linear visa minimizar a soma de todos os resíduos quadrados. Aqui está a representação matemática da regressão linear:
Y = a0+a1X+ ε
Na equação acima:
Y = Variável dependente
X = Variável independente
a0 = Interceptação da linha que oferece DOF adicional ou grau de liberdade.
a1 = Coeficiente de regressão linear, que é um fator de escala para cada valor de entrada.
ε = Erro aleatório
Lembre -se de que os valores das variáveis x e y são conjuntos de dados para a representação do modelo de regressão linear.
Quando um usuário implementa uma regressão linear, os algoritmos começam a encontrar a melhor linha de ajuste usando a0 e a1. Dessa forma, torna -se mais preciso para pontos de dados reais; já que reconhecemos o valor de a0 e a1, Podemos usar um modelo para prever a resposta.
Regressão linear simples
Esse tipo de regressão linear funciona usando a forma de interceptação de inclinação tradicional na qual A e B são dois coeficientes que são elaborados "Aprenda" e encontram as previsões precisas. Na equação abaixo, X significa dados de entrada e Y significa previsão.
Y = bx + a
Regressão multivariável
Uma regressão multivariável é um pouco mais complexa do que outros procedimentos. Na equação abaixo, 𝒘 significa os pesos ou coeficiente que exige ser elaborado. Todas as variáveis 𝑥1, 𝑥2, e 𝑥3 Atributos da informação das observações.
Previsão de preços da casa usando regressão linear
Agora vamos considerar cada passo para a previsão de preços da casa usando regressão linear. Considere uma empresa de imóveis com conjuntos de dados contendo os preços dos imóveis de uma região específica. O preço de uma propriedade é baseado em fatores essenciais, como quartos, áreas e estacionamento. Principalmente, uma empresa imobiliária exige:
Abaixo está o código para configurar o ambiente e estamos usando o Scikit-Learn para prever o preço da casa:
importar pandas como PDDepois disso, leia os dados dos preços da casa:
Casas = Pd.read_csv ("kc_house_data.CSV ")Aqui está a tabela com os detalhes completos (conjunto de dados) de diferentes casas:
Agora, realizaremos a limpeza de dados e a análise exploratória usando o código abaixo:
#cuar para nulos nos dadosDe acordo com o conjunto de dados, não há nulos disponíveis:
Out [3]: id 0Depois disso, construímos um modelo de regressão linear. Prepare os dados que definirão a variável preditora e resposta:
# Crie x e yPodemos dividir dados no trem e no teste; O Split de trem ou teste apresenta dois subconjuntos criados aleatoriamente de nossos dados. Esses dados de teste/trem são usados para se ajustar ao algoritmo de aprendizado, para que ele possa aprender a prever. O conjunto de testes que usamos para obter uma idéia de trabalhar o modelo com novos dados.
# dividir dados em trem e testeDepois disso, encaixe o modelo no conjunto de treinamento.
# instanciado, ajusteUma vez que nos encaixamos no modelo, temos que imprimir todos os coeficientes.
Imprima Linreg.interceptar_O valor de y será igual a um0 quando o valor de x = 0; Nesse caso, será o preço da casa quando o sqft_living for zero. O a1 Coeficiente é a mudança no Y dividido alterando o valor em x. O incremento de um metro sq no tamanho da casa está associado ao incremento de preços de 282 dólares.
Agora, podemos prever o preço da casa de 1000 pés quadrados usando o seguinte modelo:
# manualmenteDepois de fazer o procedimento acima, calcular um erro quadrado RMSE ou raiz, é a métrica mais usada para avaliar o modelo de regressão em um conjunto de testes:
mse = mean_squared_error (y_test, linreg.prever (x_test))Então, como você pode ver, temos um erro médio de raiz de 259163.48 Depois de prever os preços da casa. Estamos usando um único recurso no modelo acima; O resultado era esperado. No entanto, você pode melhorar o modelo adicionando mais recursos.
Conclusão
Esperamos que nosso guia detalhado sobre a previsão de preços da casa usando regressão linear tenha sido útil. Como mencionamos anteriormente, há regressão linear múltipla, como regressão simples e regressão multivariável. Principalmente, usamos regressão simples para prever o preço da casa facilmente. No entanto, você pode usar a regressão multivariável para prever os resultados com mais precisão usando variáveis diferentes. Além disso, usamos um conjunto de dados completo com informações precisas sobre as casas. Principalmente, todos os códigos e bibliotecas acima que usamos não são únicos, pois existe um procedimento específico para realizar o procedimento de previsão da casa por regressão linear.