O que são variação e covariância?
A dispersão dos dados é medida por variação. Ele nos diz como os dados são distribuídos em torno de um certo número 'verdadeiro' ou 'correto' (tendência central - uma medida é a média dos dados. Na análise univariada, o termo variação é usado para descrever o comportamento de uma única variável. A covariância é usada na análise multivariada para examinar o comportamento conjunto de duas variáveis. Quando duas variáveis se movem na mesma direção, sua covariância é positiva; é negativo quando eles se movem em direções opostas.
O que é mudança de conjunto de dados?
Quando a distribuição dos seus dados de trem e teste difere, isso é conhecido como mudança de conjunto de dados. Como o modelo foi treinado em uma distribuição e agora está sendo usada para prever diferentes distribuições de dados, resultando em menor precisão nos dados do teste, como resultado, você deve sempre testar suas distribuições de dados e testes de dados e torná -los tão semelhantes quanto viáveis.
Tipos de mudança de dados
Por que a mudança de conjunto de dados acontece?
Viés de seleção de amostras: A variação na distribuição é atribuída ao fato de que os dados de treinamento foram obtidos por meio de um método tendencioso e não representa com precisão o ambiente operacional a partir do qual os dados de teste foram obtidos.
Ambientes não estacionários: O ambiente de treinamento difere do ambiente de teste, tempo ou espaço.
O que é mudança covariada no aprendizado de máquina?
A diferença entre o treinamento e as distribuições de conjuntos de dados de teste é conhecida como mudança de covariável. Isso significa que o treinamento do conjunto de dados é realizado em um tipo de distribuição, e o modelo está sendo usado para prever os dados de alguma outra distribuição. A mudança de covariável pode indicar que o modelo não pode generalizar bem o suficiente. A capacidade de um modelo de se aplicar a novos dados usando recursos adquiridos a partir de dados de treinamento é conhecido como generalização. Você pensaria que eles viriam da mesma distribuição, mas esse é quase o caso. Como resultado, você deve manter seus modelos atualizados com o conjunto de trem mais recente. Isso geralmente é causado por mudanças no estado de variáveis latentes, que podem ser temporais (incluindo mudanças na estacionariedade de um processo temporal), espacial ou menos evidente. Também é possível pensar nisso como ver em uma "região" desconhecida do universo de dados. É um campo fascinante de pesquisa, porque pode ser observado de várias maneiras na natureza. Podemos lidar com isso no espaço de dados por extrapolação criativa, mas isso raramente funciona, e alternativas como a reestimação de variáveis latentes ou a tentativa de fazer uma função de previsão adaptativa ao domínio. Circunstâncias especiais, como variáveis estacionárias de tempo e, ocasionalmente, dados numéricos puro, são necessários para ver se realmente saímos do nosso espaço covariado original. Nesse cenário, podemos calcular o espaço de dados do Hull convexo e ver se nosso novo ponto de dados está fora dele. Obviamente, isso é computacionalmente caro, então raramente é feito até que nossas previsões estejam incorretas. É, é claro, dependente de aplicativo.
Exemplos de mudança covariante
A detecção de desvio covariável e outros tipos de desvio do modelo é uma etapa essencial para melhorar a precisão do teste do modelo. A seguir, alguns exemplos de mudança de covariável nos casos de uso de aprendizado de máquina comum:
Classificação da imagem e reconhecimento facial: Um modelo pode ter sido treinado em imagens de apenas algumas raças de cães, mas terá um desempenho ruim quando usado para prever raças que não estavam presentes nos dados de treinamento.
Detecção e tradução de fala: Um modelo pode ser treinado em alto -falantes com um sotaque particular. Quando usado com fala com novos dialetos ou sotaques, o modelo pode atingir um alto nível de precisão com os dados de treinamento, mas ficará impreciso quando usado com novos dialetos ou sotaques.
Assistência médica: Um modelo treinado em dados de treinamento acessível de pacientes com 20 anos será menos preciso ao rastrear dados de pacientes com 60 anos ou mais.
Manipulando mudança de covariância
Abaixamos os recursos categorizados como deriva em nossa estratégia para lidar com a mudança de conjunto de dados. No entanto, apenas remover recursos pode resultar em alguma perda de dados. Mais tarde, podemos simplesmente soltar os recursos menos importantes. Como resultado, os recursos com um valor de desvio maior que um determinado limite são removidos. Abaixo está o código que calcula e exibe a importância do recurso para um modelo de regressão linear.
de Sklearn.Os conjuntos de dados importam make_regression
de skl
ganhar.Linear_model Importar linear -regressão
De Matplotlib Import PyPlot
X, y = make_regression (n_samples = 2000, n_features = 15, n_informativo = 5, random_state = 1)
Model = LinearRegression ()
modelo.ajuste (x, y)
coef_array = modelo.coef_
para i, v em enumerado (coef_array):
Print ('Recurso: %0d, Pontuação: %.5f ' % (i, v))
Pyplot.bar ([x para x em alcance (len (coef_array))], coef_array)
Pyplot.mostrar()
Saída
Recurso: 0, Pontuação: 0.00000
Recurso: 1, pontuação: 0.00000
Recurso: 2, Pontuação: 51.76768
Recurso: 3, Pontuação: 0.00000
Recurso: 4, Pontuação: 0.00000
Recurso: 5, Pontuação: 0.00000
Recurso: 6, Pontuação: 77.69109
Recurso: 7, Pontuação: 0.00000
Recurso: 8, Pontuação: 41.53725
Recurso: 9, Pontuação: 0.00000
Recurso: 10, Pontuação: 14.19662
Recurso: 11, Pontuação: 80.91086
Recurso: 12, Pontuação: -0.00000
Recurso: 13, Pontuação: -0.00000
Recurso: 14, Pontuação: -0.00000
Conclusão
Este artigo analisou muitos conceitos, razões e remédios conectados à mudança de conjunto de dados. A mudança das distribuições de dados do treinamento para os dados de teste é chamada de mudança de conjunto de dados. Diferentes condições de treinamento e teste podem mudar a covariância entre as variáveis independentes. Depois de estimar a importância do recurso, podemos utilizar a queda de recursos para eliminar a mudança de conjunto de dados.