As limitações dos dados em análise preditiva

Tal como acontece com muitos aspectos de qualquer sistema de negócios, os dados é uma criação humana - por isso é susceptível de ter alguns limites sobre a sua usabilidade quando você primeiro obtê-lo. Aqui está um resumo de algumas limitações que você é provável encontrar:

  • Os dados podem ser incompleta. Os valores em falta, até mesmo a falta de uma seção ou uma parte substancial dos dados, poderia limitar a sua usabilidade.

    Por exemplo, seus dados podem abranger apenas uma ou duas condições de um conjunto maior de que você está tentando modelo - como quando um modelo construído para analisar o desempenho do mercado de ações só tem dados disponíveis a partir dos últimos 5 anos, o que distorce os dados e o modelo para a hipótese de um mercado de touro.

    No momento em que o mercado sofre qualquer correção que leva a um mercado de urso, o modelo não consegue adaptar-se - simplesmente porque não foi treinado e testado com dados que representa um mercado de urso.

    Certifique-se de que você está olhando para um período de tempo que lhe dá uma visão completa das flutuações naturais do seu data- seus dados não deve ser limitado por sazonalidade.

  • Se você estiver usando dados de pesquisas, tenha em mente que as pessoas nem sempre fornecem informações precisas. Nem todo mundo vai responder a verdade sobre (digamos) quantas vezes eles exercem - ou quantas bebidas alcoólicas que consomem - por semana. As pessoas não podem ser desonesto tanto como auto-consciente, mas os dados ainda está inclinado.

  • Os dados recolhidos a partir de diferentes fontes podem variar em qualidade e formato. Os dados recolhidos a partir de fontes diversas como pesquisas, e-mails, formulários de entrada de dados e site da empresa terá diferentes atributos e estruturas. Dados de várias fontes podem não ter muito a compatibilidade entre os campos de dados. Tais dados exige grande pré-processamento antes que seja análise pronta. A barra lateral que acompanha fornece um exemplo.

Os dados coletados de várias fontes podem ter diferenças de formatação, registros duplicados e inconsistências entre campos de dados mescladas. Espere gastar muito tempo a limpeza desses dados - e ainda mais validando sua confiabilidade.

Para determinar as limitações de seus dados, certifique-se de:

  • Verifique todas as variáveis ​​que você vai usar em seu modelo.

  • Avaliar o alcance dos dados, especialmente ao longo do tempo, para que o seu modelo pode evitar a armadilha sazonalidade.

  • Verifique se os valores em falta, identificá-los, e avaliar o seu impacto sobre a análise global.

  • Atente para valores extremos (outliers) e decidir sobre a possibilidade de incluí-los na análise.

  • Confirmar que o conjunto de dados de treinamento e teste é grande o suficiente.

  • Certificar-se de que tipo de dados (inteiros, valores decimais ou caracteres, e assim por diante) está correta e definir os limites superiores e inferiores de valores possíveis.

  • Preste atenção extra para a integração de dados quando os dados vem de várias fontes.

Certifique-se de entender as suas fontes de dados e seu impacto sobre a qualidade geral de seus dados.

  • Escolha um conjunto de dados relevante que é representativa de toda a população.

  • Escolha os parâmetros certos para a sua análise.

Mesmo depois de todo esse cuidado e atenção, não se surpreenda se os seus dados ainda precisa de pré-processamento antes que você possa analisá-lo com precisão. Pré-processamento, muitas vezes leva muito tempo e esforço significativo porque tem que abordar várias questões relacionadas com os dados originais - estes problemas incluem:

  • Quaisquer valores em falta a partir dos dados.

  • Quaisquer inconsistências e / ou erros nos dados existente.

  • Quaisquer duplicados ou valores extremos nos dados.

  • Qualquer normalização ou qualquer outra transformação dos dados.

  • Quaisquer dados derivados necessários para a análise.

menu