同美国市场一样,以Hadoop为代表的开源大数据技术,在中国大数据产业经历了一段狂热期,目前这股浪潮正渐渐退去。
长期以来,Hadoop这个词铺天盖地,几乎成了大数据的代名词。
在这个数据爆炸的时代,企业需要一个东西来存储、快速处理大量数据,并从大量数据中进行分析,Hadoop便是为此而生。
如果从2006年开始算起,Hadoop已经有十年的发展历史。Hadoop之父Doug Cutting主导的Apache Nutch项目是Hadoop软件的源头。
在大数据产业发展过程中,以Hadoop为代表的开源大数据生态,带动了大数据行业的技术进步与商业发展,那么如今的Hadhoop走到了哪个阶段?
叫好不叫座的Hadoop?
虽说在大数据市场,Hadoop成为必备的产品,各个厂商都推出了自己的Hadoop发行版本,但是似乎相当一部分企业还没有找到更好的Hadoop使用方式。
根据Gartner初步估计,2016年Hadoop发行版支出达到8亿美元,较2015年增长40%。遗憾的是,仍然只有14%的企业实际报告了Hadoop部署情况,仅稍高于上一年的10%。
除了2016年Hadoop部署量增长缓慢外,部署通道本身也呈现出下滑趋势。即使从更为狭义的Hadoop概念角度进行分析,大数据的实践比例也仍然相当有限。
正如Gartner所指出,企业似乎一直在对Hadoop进行相关实验,但却多数未能将其纳入生产阶段。
事实是否真如Gartner调研所说,我们不妨看看Hadoop 商业化最典型三大公司——Hortonworks、Cloudera和MapR的营收情况,这可以说是Hadoop 商业化世界的一个风向标。
Hortonworks于2017年5月公布的消息显示,公司2017年第一季度收入5600万美元,同比增长35%,利润率更高,经营亏损收窄。但是目前依然是亏损。
Cloudera的收入正在增长,截止到1月份的上一财年营收达到2.61亿美元,亏损为1.86亿美元;2015财年营收为1.66亿美元,亏损2.03亿美元。Cloudera的多数营收都来自订阅收入,订阅期通常为1至3年,但他们还通过服务获取营收,包括专业服务、培训和教育等。
MapR公司的CEO米尔斯认为,MapR的销售额在不断增长,平均交易规模大于10万美元,但他不愿评论成本或亏损。
事实上,从 2015 年中期以来,Hortonworks和Cloudera的股价已经分别下跌了68%和40%。,对一些公司来说,采用Hadoop框架已经产生了实际的财务问题。
总体而言,大数据技术确实引发了广泛关注,但至少在商业层面还没能获得全面成功。
云转型将成为趋势?
当然,我们也不能忽视Hortonworks和Cloudera取得的营收增长,很大程度上要得益于对云计算的积极接纳。正如Hortonworks在财报会议上所言,近25%的客户立足公有云运行其软件,而两年前这一比例还仅为0%。
将Hadoop部署方案迁移至云端的主要驱动因素之一,在于Hadoop自身的工作复杂性。考虑到用于补充及加速Hadoop创新的相关项目不断涌现,主流企业根本不可能跟上这样的节奏。
坦率地讲,云计算正是大数据项目的理想归宿,云不仅能够为大数据技术提供可管理性,更能够帮助其真正实现生产能力。
如果在云环境当中来运行Hadoop,企业的数据会在云存储的系统当中,云计算厂商也帮助企业管理了数据的拷贝。
企业客户还可以针对不同的应用创建应用不同的集群,而集群的开关或者是规模的伸缩都可以按需进行,这样对于客户来说,可以实现更好控制和灵活性。
目前使用Hadoop技术实现的云计算平台包括AWS、Azure、IBM的蓝云、英特尔的“云计划”、百度的云计算基础架构、阿里巴巴云计算平台,以及中国移动的BigCloud大云平台等。
虽然这种云转型趋势可能会给云计算厂商带来更多收益,也可能并不会给传统Hadoop供应商带来收益增值,但作为一股强大的发展趋势,将给大数据行业带来推动作用。
考虑到越来越多的企业数据开始驻留在亚马逊、微软与谷歌提供的云平台上,也许未来企业将更倾向于直接使用这些平台提供的原生Hadoop服务。
Hadoop和AI是什么关系?
人类也从未停止对科技的追求,大数据流行了之后,人工智能成为最新的关键字,要发展人工智能不可缺少的一项关键就是数据。
Hadoop之父Doug Cutting指出,Hadoop和AI之间是非常适合、非常匹配的一项技术,因为AI本身就是一种大数据的应用。
Hadoop与机器学习、AI有高度关联性,要训练、测试、评价人工智能都需要数据。许多开发者在 Hadoop平台上写了很多应用程序,可以利用这个平台搜集各种巨量数据,支援 AI和机器学习的数据也是爆炸性成长,很难有一家公司可以做到提供这么大量的工具。
在Cloudera 联合创始人兼首席技术官Awadallah看来,Cloudera从初期基础性的数据收集、存储和处理,已经进入到了机器学习和人工智能阶段。
他举例谈到,Cloudera帮助全世界最大的银行集团之一摩根大通集团部署了一个应用,将过去几十年当中和合作伙伴签的各种各样的法律合同进行分析,以往数以十万小时计的人工律师工作,现在用人工智能的系统、用计算机来处理的话10分钟就可以完成。
也就是说,人工智能系统已经能够以非常高的精确度来复制律师的工作,而人工律师的精力可以主要集中在处理例外情况和真正棘手的难题。
诸如Cloudera等大数据公司,正在利用机器学习、人工智能去构建各种各样的应用,服务如医疗健康、农业、制造业、金融服务等行业需求。
不过,Doug Cutting也坦言,AI和机器学习领域无疑是Hadoop未来面临的挑战之一,“目前许多机器学习跟 AI技术许多都是开放源代码技术,革命不是由单一组织推动。”
从发展历程来看,现阶段 AI 和机器学习方面的社群很分散,各自发展,各立山头,所以整个社群都应该团结起来才行,让一些优质的方法走向标准化,全力进一步开发,加速其进步速度,这才会是比较好的方式。
Hadoop作为一项基础技术仍然在发挥着关键作用,与此同时新的技术会不断涌现出来。云计算和AI技术的融入,也许能够帮助Hadoop更好地商业化,使其更好的应用于企业的业务场景中。
【科技云报道原创】
转载请注明“科技云报道”并附本文链接