大数据文摘翻译:超伦,校译:甄艾庄(转载请保留)
如果你有大量的数据,那么Hadoop已然,或者即将应当进入你的视野。
当下最时髦且富有盛名的大数据管理系统原来只用在像谷歌、雅虎这样的互联网大咖,现在已经逐渐渗透到众多企业中。原因主要有以下两点:1)企业也在产生越来越多需要管理的数据,而Hadoop是一个非常棒的平台,特别是它能够合并遗留的旧数据,新数据和非结构化的数据。2)很多的围绕Hadoop提供支持和服务的供应商出现,促使Hadoop更适用于企业;
“Hadoop作为一个开源平台自由成长,深入到企业数据管理架构中势不可挡”,Forrester的分析师MikeGualtieri和Noel Yuhanna在其针对Hadoop市场波动报告中写到。“相信Hadoop会是一个大型企业必备的数据平台,它是未来灵活的数据管理平台的基石。如果你有大量的结构化、非结构化,甚至是二进制数据,那么你的企业就和Hadoop有完美的契合点”。
那么我们该从哪里开始?Forrester会告诉你,有许多地方可以帮助你开始应用Hadoop,他们已经对9个提供Hadoop的公司进行评估,找到每一家公司的优劣势。Forrester总结在这方面没有特别清晰的市场领军,一些相对年轻的公司会追随科技巨头的脚步,为用户提供有竞争力的服务。
首先,关于Hadoop的背景介绍:Hadoop是一个开源的Apache项目,每个人都可以自由下载核心代码,包括Hadoop Common,Hadoop分布式文件系统,Hadoop YARN, 和 HadoopMapReduce。很多公司,从IBM到亚马逊、微软、Terada,都将Hadoop打包成更加易于使用的分布式系统或者服务中。每家公司都会有一些不同的战略,但是关键的区别是Hadoop有能力在可能几千台服务器中分配工作负载,使大数据成为可管理的数据。
备注:以下公司列表基于Forrester的市场波动报告,并未囊括所有的Hadoop和大数据管理平台。列表顺序按公司首字母排列。
亚马逊网页服务(Amazon Web Service,“AMS”)
如果客户想要寻找在公有云上提供的Hadoop平台,那你马上就会发现Forrester称之为“云中之王”的这家公司—亚马逊网页服务(AWS)。这家公司的Hadoop产品叫做“Elastic Map Reduce (EMR)”,AWS称,EMR就是他们使用Hadoop提供的大数据服务,当然他不是一个纯粹的开源Hadoop,它是为跑在AWS的云上特别定制的。
Forrester提到的EMR是市场上应用最广的Hadoop平台,EMR已经拥有多家合作伙伴并为其提供平台以外的额外服务,例如对数据进行查询、建模、集成和管理。根据Forrester的报告称,AWS正在经行更大的创新,从它的发展路线图可以看到,EMR将具备更强的能力,例如它可以自动扩展,根据工作负载情况调整大小。此外AWS还计划连同其他产品和服务,包括RedShift数据仓库,及最新发布的Kenesis实时处理引擎,为EMR提供更强大的支持,并且已经有计划提供NoSQL数据库和商业智能工具的支持。AWS所没有的是用户本地部署的Hadoop分布式系统,这恰恰是后面这两家公司的专长。
Cloudera
Cloudera拥有开源分布式的Hadoop,使用的Apache项目中的很多方面,但同时也在其基础之上做了很大的改进。Cloudera已经为它的产品开发了很多功能,从名为“Cloudera manager”的管理和监控工具,到名为“Impala”的运行在Hadoop上的SQL引擎。Cloudera使用开源Hadoop作为其分布式系统的基础,但它不是一个纯开源的产品。当Cloudera的用户需要一些开源Hadoop所没有的功能,他们就会开发或者找有相应的功能的合作伙伴。“Cloudera创新的手法在忠于Hadoop核心的同时尽力满足客户需求,这是他们有别于其他数据服务供应商的特点。”Forrester称。有超过200个付费用户稳定的运行在Cloudera平台上,有一些用户在其平台上管理1000多个节点超过1PB的数据。
Hortonworks
和Cloudera一样,Hortonworks也是一家只做Hadoop的公司。不同于Cloudera的是,Hortonworks比其他任何一家供应商对于开源Hadoop的粘性更高。Hortonworks的目标是构建Hadoop的生态系统和用户群,同时改善开源代码。它的平台紧紧绑定开源代码,公司官方称这对用户来说非常有益,因为其用户不必完全绑定在数据服务商身上。意思是说,如果Hortonworks的用户确实需要离开他们的平台,那他们可以轻松的把应用程序从Hortonworks平台迁移走。当然,这也不是说他们在开源平台上没有创新。公司把他们有对于平台的开发工作全部给到开源社区,以Ambri为例,它就是Hortonworks开发的用于进行集群管理的工具。Hortonworks的这一举措使它和很多的供应商像Teradata、微软、红帽和SAP建立了非常强的合作伙伴关系。
IBM
当企业考虑大的IT项目时,大都会想到IBM。正因为如此,IBM成为Hadoop项目服务在全球最大的供应商。 Forrester称IBM已经有超过100个Hadoop部署用户,且很多用户都是PB级别的数据。公司将其在网格计算、全球数据中心和企业级部署的丰富经验应用到大数据项目。“IBM的路线图看得出他们正在将IBM已有的产品和BigInsights Hadoop解决方案进行集成,这些已有产品包括SPSS的高级分析工具,用于高性能计算的负载管理,商业智能工具和数据挖掘工具等,”Forrester提到。
Intel
和AWS一样,英特尔也利用并优化了Hadoop版本,使其能够更好的运行在英特尔的硬件上,特别是志强芯片。对于那些一直努力突破Hadoop系统的限制,希望在软件和硬件之间找到最佳平衡点的用户来说,英特尔的Hadoop分布式系统应该最为适用。Forrester提到英特尔最近刚发布这个产品,并已投放市场了,所以很期待他们能够在现有版本基础上有所创新。在所有其他7家“领导者”地位的公司行列中,英特尔和微软在Hadoop市场更能被称为“表现强劲”。
MapR Technologies
MapR Technologies可能是最好的Hadoop分布式系统公司,但很多人都没有听说过这家公司。在Forrester用以编写波动报告而调查的Hadoop用户反馈中,MapR以其在分布式架构和数据处理能力方面获得用户评分最高。这家公司的秘诀是他们拥有一套已经做到了现有的Hadoop版本中的特有功能。例如,MapR的分布式支持NFS,此外,MapR还在它的分布式系统中构建了灾难恢复和高可用的特性。Forrester称在Hadoop市场,MapR只不过没有像Cloudera和Hortonworks那样的品牌认知度,但是随着更多合作伙伴的加入和市场营销的增强,MapR已经逐渐成为主流的Hadoop公司。
Microsoft
微软历来不是一家会拥抱开源软件的公司,但是在这件事情上,他们不但让Hadoop跑在了Windows的机器上,而且还把代码提供给开源项目,以促进Hadoop的生态系统更广泛的发展。这个工作的成果已经体现在微软公有云Azure上的Hadoop产品中。他是一个基于Hortonworks的分布式平台,在Azure上定制的“Hadoop即服务”的产品。
微软还有一些其他的项目,包括“Polybase”,能够实现通过熟悉的SQL语句查询Hadoop的数据的能力。据Forrester的报道,“微软通过在数据库、数据仓库、云计算、OLAP、商业智能、工作表、协同和开发工具方面的优势,不断为微软用户增加在Hadoop方面的能力”。如英特尔一样,微软也被认为是“表现强劲”,但还不是市场的领导者。
Pivotal Software
去年EMC和VMware双方出资从原有公司独立出来成立了Pivotal公司,Pivotal做的主要业务之一就是Hadoop分布式系统,此外还有云上的PaaS服务(Cloud Foundry PaaS)。Pivotal在开源代码之上增加了很多的工具,特别是一个SQL引擎,叫做“HAWQ”,和专为运行大数据平台而定制的Hadoop一体机。Forrester称Pivotal的Hadoop平台最大的优势就是它能够将其分布式系统和其他Pivotal,EMC和VMware的产品集成,然而,根据Forrester的报道,这家公司目前只有不到100个用户,而且大部分都是中型用户。
Teradata
像Teradata这样的公司抑或将Hadoop视为威胁或者视为机会,公司专注在数据管理,特别是SQL和关系型数据库方面。因此像Hadoop这样的NoSQL平台的崛起可能会对公司产生威胁。然而,Teradata还是拥抱了Hadoop。通过和Hortonworks合作,Teradata现在已经将Hadoop平台集成到现有SQL系统中,给现有的Terada用户一个即插即用的Hadoop平台,它能够和已经存在于Teradata数据仓库中的数据无缝集成。
作者 布兰登•巴特勒