Análise e Técnicas de extracção para Big Data

Em geral, soluções de análise de texto para big data usar uma combinação de técnicas estatísticas e processamento de linguagem natural (NLP) para extrair informações de dados não estruturados. PNL é um campo amplo e complexo que tem desenvolvido ao longo dos últimos 20 anos.

A meta principal da PNL é derivar o significado do texto. Processamento de Língua Natural geralmente faz uso de conceitos lingüísticos, tais como estruturas e partes do discurso gramaticais. Muitas vezes, a ideia por trás deste tipo de análise é determinar quem fez o quê a quem, quando, onde, como e porquê.

NLP executa análise sobre o texto em diferentes níveis:

  • análise léxica / morfológica examina as características de uma palavra individual - incluindo prefixos, sufixos, raízes e partes do discurso (substantivo, verbo, adjetivo, e assim por diante) - informações que contribuam para a compreensão de que a palavra significa no contexto do texto fornecido. análise lexical depende de um dicionário, enciclopédia, ou em qualquer lista de palavras que fornece informações sobre essas palavras.

  • análise sintática usa estrutura gramatical para dissecar o texto e pôr palavras individuais em contexto. Aqui estão ampliando seu olhar a partir de uma única palavra à frase ou a sentença completa. Esta etapa pode diagramar a relação entre as palavras (a gramática) ou procurar sequências de palavras que formam frases corretas ou para sequências de números que representam datas ou valores monetários.

  • análise semântica determina os possíveis significados de uma frase. Isso pode incluir o exame a ordem das palavras e estrutura de sentença e eliminação de ambiguidades palavras relacionando a sintaxe encontrados nas frases, sentenças e parágrafos.

  • análise ao nível de discurso tenta determinar o significado do texto para além do nível sentença.

Compreender as informações extraídas de big data

Certas técnicas, combinadas com outras técnicas estatísticas ou linguísticas para automatizar a marcação e marcação de documentos de texto, pode extrair os seguintes tipos de informações:

  • Termos: Outro nome para palavras-chave.

  • Entidades: Muitas vezes chamado entidades nomeadas, estes são exemplos específicos das captações. Os exemplos são nomes de pessoas, nomes de empresas, localizações geográficas, informações de contato, datas, horários, moedas, títulos e posições, e assim por diante. Por exemplo, o software de texto analítico pode extrair a entidade Jane Doe como uma pessoa referida no texto que está sendo analisado. A entidade 03 de março de 2007 pode ser extraído como uma data, e assim por diante.

  • fatos: Também chamado relações, fatos indicam a quem / o que / onde as relações entre duas entidades. John Smith é a CEO da empresa Y e Aspirina reduz a febre são exemplos de fatos.

  • Eventos: Enquanto alguns especialistas usam os termos fato, relação, e evento alternadamente, outros distinguir entre eventos e fatos, afirmando que os eventos geralmente contêm uma dimensão de tempo e muitas vezes causam fatos para mudar. Exemplos incluem uma mudança na gestão dentro de uma empresa ou o status de um processo de vendas.

  • Conceitos: Estes são conjuntos de palavras e frases que indicam uma determinada idéia ou tópico com o qual o usuário está em causa. Por exemplo, o conceito cliente insatisfeito pode incluir as palavras irritado, decepcionado, e confuso e as frases serviço de desconexão, não ligou de volta, e desperdício de dinheiro - entre muitos outros. Assim, o conceito cliente insatisfeito pode ser extraído sem as palavras infeliz ou cliente que aparece no texto.

  • sentimentos: análise de sentimento é usado para identificar os pontos de vista ou emoções no texto subjacente. Algumas técnicas de fazer isso por meio da classificação de texto como, por exemplo, subjetiva (parecer) ou objetiva (fato), usando técnicas de aprendizado de máquina ou PNL. análise de sentimentos tornou-se muito popular na # 147-voz do cliente # 148- tipos de aplicações.

taxonomias de dados grandes

Taxonomias são frequentemente cruciais para Text Analytics. UMA taxonomia é um método para organizar informações em relações hierárquicas. É por vezes referido como uma forma de organizar as categorias. Porque uma taxonomia define as relações entre os termos uma empresa usa, isso torna mais fácil de encontrar e, em seguida, analisar o texto.

Por exemplo, um provedor de serviços de telecomunicações oferece tanto o serviço com e sem fio. Dentro do serviço sem fios, a empresa pode apoiar telefones celulares e acesso à Internet. A empresa pode então ter duas ou mais formas de categorizar o serviço de telefone celular, como planos e tipos de telefone. A taxonomia poderia atingir todo o caminho até as partes de um telefone em si.

Taxonomias também pode usar sinônimos e expressões alternativas, reconhecendo que celular, telefone celular e telefone móvel são todos iguais. Estas taxonomias pode ser bastante complexo e pode levar um longo tempo para se desenvolver.

menu