10 Conjuntos de dados públicos e onde encontrá-los

conjuntos de dados públicos são muito grandes conjuntos de dados que estão disponíveis gratuitamente para você download ou se conectam a via nuvem. Existem vários sites bem-curadoria com as últimas informações sobre conjuntos de dados públicos e como usá-los, incluindo o seguinte:

  • Amazon Web Services: Atualmente 56 conjuntos de dados públicos que residem na Amazon Web Services disponíveis para o público.

  • Open Science Nuvem de Dados: O Open Science Nuvem de Dados é um consórcio patrocinado pela Fundação Gordon e Betty Moore, Yahoo !, Cisco e da National Science Foundation.

  • BigData-Comece: BigData-Startup é um recurso on-line para todas as coisas de big data. Esta lista contém uma longa lista de organizações que hospedam bancos de dados públicos.

Há todos os tipos de conjuntos de dados para classificar através de, a partir de projetos de genoma para weblogs para e-mails de empresas notórios. Aqui estão dez conjuntos de dados públicos e onde você pode ir para começar:

  • 1000 Projeto Genoma (200TB): O Projeto 1000 Genomas é patrocinado pela Amazônia e do Centro Nacional de Informações sobre Biotecnologia. Esse conjunto de dados contém conjuntos de dados de mais de 2.600 pessoas de 26 populações diferentes de todo o mundo.

  • Conclua Genomas dados públicos (50TB): Este é um dado genoma sequenciado de Complete Genomics, uma empresa que presta serviços de sequenciação do genoma.

  • Earth Observing-1 Mission (80.5TB): NASA abriu a visão panorâmica da Terra. Estes são os dados recolhidos pelo Advanced Land Imager (ALI). Esta informação é usada para entender melhor como os eventos da Terra como vulcões, incêndios florestais e inundações evoluir com o tempo e afetam o nosso planeta.

  • Comum Crawl Corpus (541TB): Alguma vez você já quis começar suas mãos sobre os dados de rastreamento por bilhões de páginas da web com trilhões de links? Aqui está sua chance. O Crawl Corpus comum fornece um rico conjunto de ferramentas, exemplos e projetos que você pode saltar para hoje.

  • Marvel Universe Social Graph (1GB): Este é um olhar do divertimento na conexão social do mundo Marvel de caracteres. Os fundadores afirmam que a análise deste mundo social é notavelmente perto de nossa própria.

  • Os e-mails da Enron (210GB): Esses e-mails - todos os 1,2 milhões, com quase 500.000 anexos - foram libertados como parte da investigação da Federal Energy Regulatory Commission para a firma infame.

  • Dataset Amostra milhões Canção (500GB): Você está procurando conjuntos de dados em um milhão de canções populares? Não procure mais. The Million Canção Dataset contém alguns recursos de áudio e metadados para um milhão de canções populares.

  • projeto Gutenberg (742GB): Projeto Gutenberg faz mais de 46.000 livros disponíveis para análise. Estes livros estão agora no domínio público porque seus direitos autorais expiraram.

  • Dos EUA Censo conjuntos de dados (1.8TB): De dez em dez anos, os Estados Unidos devem fazer um censo. O principal objectivo deste é garantir uma boa distribuição dos assentos parlamentares.

  • NOAA Centro Nacional de Dados Climáticos (3,3 TB): Não acredite no aquecimento global ou as alterações climáticas? Validá-lo (ou invalidá-lo) você mesmo. Esse conjunto de dados contém dados sobre mais de 150 anos de tempo de muitas fontes que variam de estações meteorológicas para leituras aeroporto de dados de satélite.

    Você pode olhar para coisas como pontos de orvalho, velocidade do vento e temperatura. Pode ser interessante para procurar correlações entre este conjunto de dados e da Amostra Million Song. Existe uma ligação entre tempo e bater recordes? Soa como uma grande questão de dados grande para alguém para responder. . . .

menu