Grandes fluxos de trabalho de dados

Para entender grandes fluxos de trabalho de dados, você tem que entender o que um processo é e como ele se relaciona com o fluxo de trabalho em ambientes de uso intensivo de dados. Processos tendem a ser concebido como alto nível, estruturas end-to-end úteis para a tomada de decisão e normalizando como as coisas são feitas em uma empresa ou organização.

Em contraste, os fluxos de trabalho são orientados para a tarefa e muitas vezes exigem dados mais específicos do que os processos. Processos são compostas de um ou mais fluxos de trabalho relevantes para o objectivo geral do processo.

De muitas maneiras, grandes fluxos de trabalho de dados são semelhantes aos fluxos de trabalho padrão. De facto, em todo o fluxo de trabalho, de dados é necessário nas várias fases para realizar as tarefas. Considere o fluxo de trabalho em uma situação de saúde.

Um fluxo de trabalho elementar é o processo de # 147 retirada de sangue. # 148- retirada de sangue é uma tarefa necessária necessário para concluir o processo de diagnóstico geral. Se algo acontecer e sangue não foi elaborada ou os dados a partir desse exame de sangue foi perdido, será um impacto direto sobre a veracidade ou a veracidade da actividade global.

O que acontece quando você introduzir um fluxo de trabalho que depende de uma fonte de dados grande? Embora você possa ser capaz de usar fluxos de trabalho existentes, não se pode presumir que um processo ou fluxo de trabalho irá funcionar corretamente por apenas substituindo uma fonte de dados grande para uma fonte padrão. Isso pode não funcionar porque os métodos de processamento de dados padrão não têm as abordagens de processamento ou desempenho para lidar com a complexidade dos grandes dados.

O exemplo de saúde centra-se na necessidade de realizar uma análise depois que o sangue é retirado do paciente. No fluxo de trabalho de dados padrão, o sangue é digitado e, em seguida, certos testes químicos são realizados com base nos requisitos do profissional de saúde.

É pouco provável que este fluxo de trabalho compreende os testes necessários para a identificação de biomarcadores específicos ou as mutações genéticas. Se você forneceu fontes de dados grandes para biomarcadores e mutações, o fluxo de trabalho seria um fracasso. Não é grande de dados consciente e terá de ser modificado ou reescrito para suportar dados grandes.

A melhor prática para a compreensão de fluxos de trabalho e o efeito de big data é fazer o seguinte:

  • Identificar as fontes de dados grandes que você precisa usar.

  • Localize os grandes tipos de dados para seus tipos de dados de fluxo de trabalho.

  • Certifique-se que você tem a velocidade de processamento e armazenamento de acesso para apoiar o seu fluxo de trabalho.

  • Selecione o armazenamento de dados mais adequados para os tipos de dados.

  • Modificar o fluxo de trabalho existente para acomodar os dados grandes ou criar novo fluxo de trabalho de dados grande.

Depois de ter suas grandes fluxos de trabalho de dados, será necessário ajustar estes de modo que não vai sobrecarregar ou contaminar sua análise. Por exemplo, muitas fontes de dados grandes não incluem definições de dados bem definidos e metadados sobre os elementos dessas fontes. Às vezes, essas fontes de dados não foram limpos. Você precisa ter certeza de que você tem o nível adequado de conhecimento sobre as fontes que você vai usar.

menu