Como testar o Modelo de Análise Preditiva

Para ser capaz de testar o modelo de análise preditiva que você construiu, você precisa dividir o conjunto de dados em dois conjuntos: treinamento e teste conjuntos de dados. Estes conjuntos de dados devem ser selecionados de forma aleatória e deve ser uma boa representação da população real.

  • Dados semelhantes deve ser utilizado tanto para a formação e conjuntos de dados de teste.

  • Normalmente, o conjunto de dados de treinamento é significativamente maior do que o conjunto de dados de teste.

  • Usando o conjunto de dados de teste ajuda a evitar erros, como overfitting.

  • O modelo de formação é executado com dados de teste para ver quão bem o modelo irá executar.

Alguns cientistas dados preferem ter um terceiro conjunto de dados que tem características semelhantes às das duas primeiras: um conjunto de dados de validação. A ideia é que se você está usando ativamente seus dados de teste para refinar seu modelo, você deve usar um separado (terceiro) Conjunto para verificar a precisão do modelo.

Ter um conjunto de dados de validação, que não foi usado como parte do processo de desenvolvimento do seu modelo, ajuda a garantir uma estimativa neutro de precisão e eficácia do modelo.

Se você construiu vários modelos usando vários algoritmos, a amostra de validação também pode ajudar a avaliar qual o modelo que melhor desempenho.

Certifique-se que você verifique o seu trabalho a desenvolver e testar o modelo. Em particular, ser cético se o desempenho ou a precisão do modelo parece bom demais para ser verdade. Os erros podem acontecer quando você menos espera. Incorretamente calcular datas para dados de séries temporais, por exemplo, pode levar a resultados errados.

Como empregar validação cruzada

Validação cruzada é uma técnica popular que você pode usar para avaliar e validar o seu modelo. O mesmo princípio da utilização de conjuntos de dados separados para testes e treinamento se aplica aqui: a dados de treinamento é usado para construir a modelagem do modelo é executada contra o conjunto de testes para prever dados que ele não tenha visto antes, que é uma forma de avaliar sua precisão .

Na validação cruzada, os dados históricos é dividido em números X de subconjuntos. Cada vez que um subconjunto é escolhido para ser utilizada como dados de teste, o restante dos subgrupos são utilizados como dados de treino. Em seguida, na próxima corrida, o antigo conjunto de teste torna-se um dos conjuntos de treinamento e um dos antigos conjuntos de treinamento torna-se o conjunto de teste.

O processo continua até que cada subconjunto de que X número de conjuntos tem sido utilizado como um conjunto de teste.

Por exemplo, imagine que você tem um conjunto de dados que você tenha dividido em 5 conjuntos numerados de 1 a 5. Na primeira corrida, você usar set 1 como o conjunto de teste e usar conjuntos de 2, 3, 4 e 5 como o conjunto de treinamento. Em seguida, na segunda corrida, você usar set 2 como o conjunto de teste e conjuntos de 1, 3, 4 e 5 como conjunto de treinamento.

Está continuar este processo até que cada subconjunto dos conjuntos 5 tem sido utilizado como um conjunto de teste.

Validação cruzada permite que você use todos os pontos de dados em seus dados históricos tanto para treinamento e testes. Esta técnica é mais eficaz do que apenas dividir seus dados históricos em dois conjuntos, usando o conjunto com o maior número de dados para treinamento, usando o outro conjunto para testes, e deixar por isso mesmo.

Quando você cross-validar seus dados, você está protegendo-se contra dados de teste escolhendo aleatoriamente que é muito fácil de prever - o que lhe daria a falsa impressão de que o seu modelo é preciso. Ou, se acontecer de você pegar dados de teste que é muito difícil de prever, você pode falsamente concluir que o seu modelo não está funcionando como você esperava.

A validação cruzada é amplamente utilizado, não só para validar a exactidão dos modelos, mas também para comparar o desempenho de múltiplos modelos.

Como equilibrar viés e variância

Viés e variância são duas fontes de erros que podem ocorrer enquanto você está construindo o seu modelo analítico.

Viés é o resultado da construção de um modelo que simplifica significativamente a apresentação das relações entre os pontos de dados nos dados históricos usados ​​para construir o modelo.

variação é o resultado da construção de um modelo que seja explicitamente específica para os dados utilizados para construir o modelo.

Atingir um equilíbrio entre viés e variância - reduzindo a variação e tolerar algum viés - pode levar a um melhor modelo preditivo. Este trade-off normalmente leva à construção de modelos preditivos menos complexos.

Muitos algoritmos de mineração de dados foram criados para ter em conta este trade-off entre viés e variância.

Como solucionar problemas de ideias

Quando você está testando seu modelo e você encontrar-se indo a lugar nenhum, aqui estão algumas idéias para considerar que pode ajudá-lo a voltar à pista:

  • Sempre verifique o seu trabalho. Você pode ter esquecido algo que você assumiu foi correta, mas não é. Tais falhas poderia mostrar-se (por exemplo) entre os valores de uma variável preditiva no seu conjunto de dados, ou na pré-processamento que você aplicada aos dados.

  • Se o algoritmo que você escolheu não está rendendo nenhum resultado, tente outro algoritmo. Por exemplo, você experimentar vários algoritmos de classificação disponíveis e dependendo de seus dados e os objetivos do negócio de seu modelo, um dos que pode ter um melhor desempenho do que os outros.

  • Tente selecionar variáveis ​​diferentes ou a criação de novas variáveis ​​derivadas. Estar sempre à procura de variáveis ​​que têm poderes de previsão.

  • consultar frequentemente com os especialistas do domínio de negócios que podem ajudá-lo a fazer sentido dos dados, selecionar variáveis, e interpretar os resultados do modelo.

menu