Fornecedores de Big Data nuvem

Os provedores de nuvem vêm em todas as formas e tamanhos e oferecem diversos produtos para big data. Alguns são nomes da casa, enquanto outros estão surgindo recentemente. Alguns dos provedores de nuvem que oferecem serviços de IaaS que podem ser usados ​​para dados de grandes incluem Amazon.com, ATT, GoGrid, Joyent, Rackspace, IBM e Verizon / Terremark.

Elastic Compute Cloud Pública da Amazon para big data

Atualmente, um dos provedores de serviço mais alto perfil de IaaS é Amazon Web Services com o Elastic Compute Cloud (Amazon EC2). Amazon não começou com uma visão para construir um grande negócio de serviços de infra-estrutura.

Em vez disso, a empresa construiu uma infra-estrutura maciça para apoiar o seu próprio negócio de varejo e descobriu que seus recursos foram subutilizadas. Em vez de permitir esse ativo para sentar-se ocioso, ele decidiu aproveitar este recurso, enquanto a adição à linha de fundo. serviço EC2 da Amazon foi lançado em 2006 e continua a evoluir.

Amazon EC2 oferece escalabilidade sob o controle do usuário, com o usuário pagando por recursos por hora. O uso do termo elástico na nomeação do EC2 da Amazon é significativo. Aqui, elasticidade refere-se à capacidade que os usuários do EC2 têm para aumentar ou diminuir os recursos de infra-estrutura atribuídas a satisfazer as suas necessidades.

Amazon também oferece outros serviços de dados grandes para os clientes da sua carteira de Amazon Web Services. Estes incluem o seguinte:

  • Amazon Elastic MapReduce: Alvo para o processamento de grandes volumes de dados. Elastic MapReduce utiliza uma estrutura Hadoop hospedado em execução no EC2 e Amazon Simple Storage Service (Amazon S3). Os usuários podem agora executar HBase.

  • Amazon DynamoDB: Um serviço de banco de dados totalmente gerenciado não só SQL (NoSQL). DynamoDB é um tolerante a falhas e altamente disponível serviço de armazenamento de dados que oferece auto-provisionamento, escalabilidade transparente e administração simples. Ele é implementado em SSDs (discos de estado sólido) para maior confiabilidade e alto desempenho.

  • Amazon Simple Storage Service (S3): Um serviço de escala web projetado para armazenar qualquer quantidade de dados. A força do seu centro de design é o desempenho e escalabilidade, por isso não é tão característica laden como outros armazenamentos de dados. Os dados são armazenados em # 147 baldes # 148- e você pode selecionar uma ou mais regiões globais para o armazenamento físico para atender às necessidades de latência ou regulamentares.

  • Amazon Computação de Alto Desempenho: Sintonizado para tarefas especializadas, este serviço fornece clusters de computação de alto desempenho sintonizado baixa latência. Na maioria das vezes usada por cientistas e acadêmicos, HPC está entrando no mainstream por causa da oferta de Amazon e outros fornecedores de HPC. clusters de HPC Amazon são construído propositadamente para cargas de trabalho específicas e pode ser reconfigurado facilmente para novas tarefas.

  • Amazon RedShift: Disponível no modo de visualização limitada, RedShift é um serviço de armazenamento de dados em escala petabyte construído sobre uma arquitetura MPP escalável. Dirigido pelo Amazon, oferece uma alternativa segura e confiável para armazéns de dados in-house e é compatível com várias ferramentas de inteligência de negócios populares.

serviços de grande de dados do Google

Google, o gigante das buscas na Internet, também oferece uma série de serviços em nuvem direcionados para big data. Estes incluem o seguinte:

  • Google Compute Engine: A capacidade baseada em nuvem para computação máquina virtual, Google Compute Engine oferece um ambiente de computação segura e flexível a partir de centros de dados eficientes em termos energéticos. O Google também oferece soluções de gerenciamento de carga de trabalho de vários parceiros de tecnologia que têm otimizado seus produtos para o Google Compute Engine.

  • Google Big Inquérito: Permite a execução de consultas SQL-like em alta velocidade contra grandes conjuntos de dados de, potencialmente, bilhões de linhas. Embora seja bom para consulta de dados, os dados não podem ser modificados depois que está nele. Considere Google Big consulta uma espécie de sistema Online Analytical Processing (OLAP) para dados grandes. É bom para relatórios ad hoc ou análise exploratória.

  • Google Prediction API: A, ferramenta de aprendizagem máquina baseada em nuvem para grandes quantidades de dados, a previsão é capaz de identificar padrões nos dados e, em seguida, lembrando-los. Pode saber mais sobre um padrão cada vez que é usado. Os padrões podem ser analisados ​​para uma variedade de fins, incluindo a detecção de fraudes, análise de churn, e sentimento do cliente.

Microsoft Azure para big data

Com base em abstrações Windows e SQL, Microsoft productized um conjunto de ferramentas de desenvolvimento, suporte de máquina virtual, gerenciamento e serviços de mídia e serviços de dispositivos móveis em uma oferta de PaaS. Para clientes com profundo conhecimento em .Net, SQLServer e Windows, a adoção do PaaS baseado no Azure é simples.

Para lidar com as exigências emergentes para integrar dados grandes em soluções do Windows Azure, a Microsoft também adicionou Windows Azure HDInsight. Construído sobre Hortonworks Data Platform (HDP), que de acordo com a Microsoft, oferece 100 por cento de compatibilidade com o Apache Hadoop, HDInsight suporta conexão com outras ferramentas de inteligência de negócios (BI) Microsoft Excel e. Além Azure HDInsight também pode ser implantado no Windows Server.

OpenStack para big data

Iniciada pela Rackspace e NASA, Pilha aberta é a implementação de uma plataforma de nuvem aberta que visa tanto as nuvens públicas ou privadas. Enquanto a organização está bem gerido pela Rackspace, passou-se a uma fundação OpenStack separado. Embora as empresas podem alavancar OpenStack para criar implementações proprietárias, a designação OpenStack exige a conformidade com uma implementação padrão de serviços.

O objetivo da OpenStack é fornecer uma especificação nuvem maciçamente escalados, multitenant que pode rodar em qualquer hardware. OpenStack está construindo um grande ecossistema de parceiros interessados ​​em adoptar a sua plataforma de nuvem, incluindo Dell, HP, Intel, Cisco, Red Hat e IBM, juntamente com pelo menos 100 outras pessoas que estão usando o OpenStack como base para as suas ofertas de nuvem.

Em essência, OpenStack é uma iniciativa IaaS código aberto construído sobre Ubuntu, um sistema operacional baseado na distribuição Debian Linux. Ele também pode ser executado em versão de Red Hat do Linux.

OpenStack oferece uma gama de serviços, incluindo computação, armazenamento de objetos, catálogo e repositório, dashboards, identidade e networking. Em termos de big data, Rackspace e Hortonworks (fornecedora de uma plataforma de gestão de dados de código aberto baseado em Apache Hadoop) anunciou que Rackspace vai lançar um serviço Hadoop OpenStack pública baseada em nuvem, que será validado e suportado por Hortonworks e permitirá que os clientes para criar rapidamente um ambiente de dados grande.

menu