Como garantir a validade, veracidade, e Volatilidade de Big Data

Alto volume, alta variedade e alta velocidade são as características essenciais de dados grandes. Mas outras características de big data são igualmente importantes, especialmente quando você aplicar dados grandes para os processos operacionais. Este segundo conjunto de # 147-V # 148- características que são fundamentais para big data operacionalização inclui

  • Validade: Os dados são corretas e precisas para o uso pretendido?

  • Veracidade: Os resultados são significativos para o espaço dado problema?

  • Volatilidade: Quanto tempo você precisa para armazenar esses dados?

validade dos dados Big

Você quer resultados precisos. Mas nos estágios iniciais de analisar petabytes de dados, é provável que você não vai se preocupar sobre como válida cada elemento de dados é. Esse fluxo inicial de big data pode realmente ser muito sujo. Nos estágios iniciais, é mais importante para ver se existem quaisquer relações entre elementos dentro desta fonte de dados maciça do que para garantir que todos os elementos são válidos.

No entanto, depois de uma organização que determina as partes do que a análise de dados inicial são importantes, neste subconjunto de grande dados necessitam de ser validados porque vai agora ser aplicada a uma condição operacional. Quando os dados se move a partir exploratória para acionável, os dados devem ser validados. A validade das fontes de dados grandes e análise posterior devem ser precisas se estiver a utilizar os resultados para a tomada de decisão.

dados de entrada válidos, seguido de um tratamento correcto dos dados devem produzir resultados precisos. Com os dados grandes, você deve ser mais vigilante no que diz respeito à validade. Por exemplo, na área da saúde, você pode ter dados de um ensaio clínico que poderia estar relacionado com os sintomas da doença de um paciente. Mas um médico tratando essa pessoa não pode simplesmente tomar os resultados de ensaios clínicos como sem validar-los.

Imagine que o satélite meteorológico indica que uma tempestade está começando em uma parte do mundo. Como é que a tempestade afetar indivíduos? Com cerca de meio bilhão de usuários, é possível analisar Twitter córregos para determinar o impacto de uma tempestade sobre as populações locais. Portanto, usando o Twitter em combinação com dados de um satélite meteorológico poderia ajudar os pesquisadores a entender a veracidade de uma previsão do tempo.

volatilidade de dados grande

Se você tiver dados válidos e pode provar a veracidade dos resultados, quanto tempo os dados precisam # 147-live # 148- para satisfazer as suas necessidades? Em um cenário de dados padrão, você pode manter os dados por décadas, porque você tem, ao longo do tempo, construiu uma compreensão de que os dados são importantes para o que você faz com ele. Você estabeleceu regras para a moeda e disponibilidade de dados que mapeiam para os seus processos de trabalho.

Por exemplo, algumas organizações só pode manter o ano mais recente de seus dados de clientes e operações em seus sistemas empresariais. Isso irá garantir a recuperação rápida dessas informações quando necessário. Se eles precisam de olhar para um ano antes, a equipe de TI pode precisar para restaurar dados de armazenamento offline para honrar o pedido. Com big data, este problema é ampliado.

Se o armazenamento é limitado, olhar para as grandes fontes de dados para determinar o que você precisa para reunir e quanto tempo você precisa para mantê-lo. Com algumas fontes de dados grandes, você pode apenas precisa de reunir dados para uma análise rápida.

Você pode então armazenar as informações localmente para posterior processamento. Se você não tem armazenamento suficiente para todos esses dados, você pode processar os dados # 147-on the fly # 148- e manter apenas pedaços de informação relevantes localmente. Quanto tempo você manter os dados grandes disponíveis depende de alguns fatores:

  • A quantidade de dados é mantido na fonte?

  • Você precisa processar os dados repetidamente?

  • Você precisa processar os dados, reunir dados adicionais, e fazer mais processamento?

  • Você tem regras ou regulamentos que exigem o armazenamento de dados?

  • Os seus clientes dependem de seus dados para o seu trabalho?

  • Será que os dados ainda têm valor, ou seja ele não é mais relevante?

Devido ao volume, variedade e velocidade de dados grandes, você precisa entender a volatilidade. Para algumas fontes, os dados serão sempre lá- para outros, este não é o caso. Entender o que os dados está lá fora e por quanto tempo pode ajudá-lo a definir os requisitos de retenção e políticas de big data.

Como consumidor, grandes dados irão ajudar a definir um perfil melhor para como e quando você comprar bens e serviços. Como um paciente, grandes dados irão ajudar a definir uma abordagem mais personalizada para tratamentos e manutenção da saúde. Como profissional, big data irá ajudá-lo a identificar as melhores formas para projetar e fornecer seus produtos e serviços.

Isso só vai acontecer quando grande dados são integrados aos processos operacionais das empresas e organizações.

menu