Como Pesquisar O seu Predictive Analytics Dados

Para utilizar seus dados de análise preditiva que você precisa saber como encontrar a informação que está a ser localizado. Existem dois principais conceitos de pesquisar seus dados em preparação para usá-lo em análise preditiva:

  • Preparando-se para ir além da pesquisa básica palavra-chave

  • Fazendo seus dados semanticamente pesquisável

Como usar a pesquisa baseada em palavras-chave em análise preditiva

Imagine se você estivesse encarregado de pesquisar grandes quantidades de dados. Uma maneira de abordar o problema é a emissão de uma consulta de pesquisa que consiste (obviamente) de palavras. A ferramenta de pesquisa olha para as palavras correspondentes no banco de dados, o data warehouse, ou vai vasculhar qualquer texto no qual os seus dados reside.

Suponha que você está emitindo o seguinte consulta de pesquisa: o Presidente dos Estados Unidos visita a África. Os resultados da pesquisa irá consistir de texto que contém exactamente um ou uma combinação das palavras Presidente, Estados Unidos, visitas, África. Você pode obter a informação exata que você está procurando, mas nem sempre.

Como sobre os documentos que não contenham qualquer uma das palavras mencionadas anteriormente, mas uma combinação dos seguintes procedimentos: A viagem de Obama ao Quênia.

Nenhuma das palavras que inicialmente procurou estão lá dentro -, mas os resultados da pesquisa são semanticamente (Significativamente) útil. Como você pode preparar seus dados para ser semanticamente recuperáveis? Como você pode ir além da busca tradicional palavra-chave? Suas respostas são podem ser encontrados se você continuar lendo.

Como utilizar pesquisas de base semântica em análise preditiva

Uma ilustração de como semântica baseada em pesquisa funciona é um projeto que Anasse Bari liderado pelo Grupo do Banco Mundial, uma organização internacional cuja missão principal é combater a pobreza em todo o mundo.

O projeto teve como objetivo investigar a pesquisa empresa de grande escala existentes e análise do mercado e construir um protótipo de um quadro de ponta que iria organizar os dados do Banco Mundial - a maioria das quais era uma coleção não estruturada de documentos, publicações, relatórios de projectos, cuecas, e estudos de caso.

Este conhecimento valioso maciça é um recurso utilizado para a missão principal de reduzir a pobreza no mundo do Banco. Mas o fato de que é desestruturado torna difícil acesso, capturar, compartilhar, entender a pesquisa, os dados da mina, e visualizar.

O Banco Mundial é uma imensa organização, com muitas divisões em todo o mundo. Uma das principais divisões estava se esforçando para ter um quadro e estava pronto para alocar recursos para ajudar a equipe de Bari foi a Rede de Desenvolvimento Humano do Banco Mundial.

O vice-presidente da Rede de Desenvolvimento Humano delineado um problema que surgiu de ambigüidade: Sua divisão usou vários termos e conceitos que tinham o mesmo significado geral, mas diferentes nuances.

Por exemplo, termos tais como climatologia, mudanças climáticas, redução do ozônio gás, e emissões de gases de efeito eram todos semanticamente relacionadas, mas não idênticas em significado. Ele queria uma capacidade de busca inteligente o suficiente para extrair documentos que continham conceitos relacionados quando alguém procurou qualquer um destes termos.

O "quadro de protótipo para que a capacidade que a equipe Bari selecionado foi o Unstructured Arquitetura de Informação de Gestão (UIMA), uma solução baseada em software. Originalmente concebido pela IBM Research, UIMA está disponível em software IBM, como o IBM Content Analytics, uma das ferramentas que movidos IBM Watson, o famoso computador que ganhou o jogo Jeopardy.

A equipe de Bari juntou forças com uma equipa muito talentosa da Administração IBM Content and Enterprise Search, e mais tarde com uma equipe da IBM Watson, para colaborar neste projeto.

A Gestão de informações não estruturadas (UIM) solução é um sistema de software que analisa grandes volumes de informações não estruturadas (texto, áudio, vídeo, imagens, e assim por diante) para descobrir, organizar e entregar o conhecimento relevante para o cliente ou o usuário final da aplicação.

o ontologia de um domínio é um conjunto de conceitos e termos relacionados particulares a um domínio. Uma solução baseada em UIMA usa ontologias para fornecer marcação semântica, que permite independente busca enriquecida de formato de dados (texto, voz, apresentação do PowerPoint, e-mail, vídeo e assim por diante). UIMA acrescenta outra camada para os dados capturados, e em seguida, adiciona metadados para identificar dados que podem ser estruturados e semanticamente pesquisados.

busca semântica baseia-se no significado contextual de termos de pesquisa como eles aparecem no espaço de dados pesquisável que UIMA constrói. busca semântica é mais preciso do que a busca de costume baseado em palavra-chave porque uma consulta do usuário retorna resultados da pesquisa de não apenas os documentos que contêm os termos de pesquisa, mas também de documentos que são semanticamente relevante para a consulta.

Se você está procurando biodiversidade na África, uma típica busca (baseada em palavras) retornará documentos que têm as palavras exatas biodiversidade e África. A busca semântica baseada em UIMA retornará não só os documentos que tenham essas duas palavras, mas também tudo o que é semanticamente relevante para # 147-biodiversidade na África # 148- documentos que contêm tais combinações de palavras como # recursos de 147 plantas em África, # 148- # recursos de 147 animais em Marrocos, # 148- ou # recursos 147-genéticas no Zimbabwe # 148;.

Através de marcação semântica e uso de ontologias, a informação torna-se semanticamente recuperáveis, independentemente da língua ou o meio em que a informação foi criado (Word, PowerPoint, e-mail, vídeo e assim por diante). Esta solução fornece um único hub onde os dados podem ser capturados, organizado, trocado, e rendido semanticamente recuperáveis.

Dicionários de sinônimos e termos relacionados são open-source (disponível gratuitamente) - ou você pode desenvolver seus próprios dicionários específicos para o seu domínio ou seus dados. Você pode construir uma planilha com a raiz da palavra e os seus correspondentes palavras relacionadas, sinônimos e termos mais amplos. A planilha pode ser carregado em uma ferramenta de busca, como o IBM Content Analytics (ICA) para alimentar a análise de pesquisa da empresa e de conteúdo.

menu