提供大数据解决方案的技术供应商列表似乎是无限的。现在,许多特别流行的大数据解决方案都属于以下15种类别之一,我们一起来看看吧:
1. Hadoop生态系统
尽管Apache Hadoop可能不再像以前那样占主导地位,但要谈论大数据几乎是不可能的,而无需提及用于分布式处理大数据集的开源框架。Forrester预测, 去年," 未来两年内100%的大型企业将采用它(Hadoop和Spark等相关技术)进行大数据分析。“
多年来,Hadoop已成长为涵盖相关软件的整个生态系统,许多商业大数据解决方案都基于Hadoop。实际上,Zion Market Research预测,到2022年, 基于Hadoop的产 品和服务市场将继续以50%的复合年增长率增长,届时其价值将达到871.4亿美元, 高于201 6年的76.9亿美元。
Hadoop的主要供应商包括Cloudera, Hortonworks和MapR, 领先的公共云都提供支持该技术的服务。
2. Spark
Apache Spark是Hadoop生态系统的一部分,但是它的使用变得如此广泛,以至于值得拥有自己的一类。它是用于在Hadoop中处理大数据的引擎,其速度比标准Hadoop引擎MapReduce快一百倍。
在《AtScale 2016大数据成熟度调查》中,有25%的受访者 说他们已经在生产中部署了Spark,还有33%的受访者在开发中有Spark项目。显然,对该技术的兴趣在不断增长,并且许多具有Hadoop产品的供应商还提供基于Spark的产品。
3. R
R是另一个开放源代码项目,是一种旨在处理统计信息的编程语言和软件环境。它是数据科学家的宠儿,由R基金会管理,可根据GPL 2许可获得。许多流行的集成开发环境(IDE) ,包括Eclipse和VisualStudio,都支持该语言。
几种对各种编程语言的流行度进行排名的组织表示,R已经成为世界上最受欢迎的语言之一。例如,IEEE说R是第五种最受欢迎的编程语言,而Tiobe和RedMonk都将其排在第14位。这很重要,因为这些图表顶部附近的编程语言通常是通用语言,可以用于许多不同种类的工作。对于几乎专门用于大数据项目的一种语言来说,如此接近顶部证明了大数据的重要性以及该语言在其领域中的重要性。
4. Data Lakes
为了更轻松地访问其庞大的数据存储,许多企业正在建立数据湖。这些是巨大的数据存储库,可以从许多不同的来源收集数据并将其以自然状态存储。这与数据仓库不同,数据仓库也从不同的源收集数据,但是对其进行处理并对其进行结构化以进行存储。在这种情况下,湖泊和仓库的隐喻是相当准确的。如果数据像水,那么数据湖是自然的,没有像水体一样经过过滤,而数据仓库更像是存储在架子上的水瓶的集合。
当企业希望存储数据但不确定如何使用数据时,数据湖特别有吸引力。大量的物联网(IoT) 数据可能属于该类别,而loT趋势正在影响数据湖的增长。
MarketsandMarkets预测,到2021年,数据湖收入将从201 6年的25.3亿美元增长到88.1亿美元。
5. NoSQL数据库
传统的关系数据库管理系统(RDBMS) 将信息存储在结构化,定义的列和行中。开发人员和数据库管理员使用一种称为SQL的特殊语言来查询,操纵和管理这些RDBMS中的数据。
NoSQL数据库专[ ]提供存储非结构化数据并提供快速性能的功能,尽管它们没有提供与RDBMS相同的一致性级别。流行的NoSQL数据库包括MongoDB, Redis, Cassandra, Couchbase等。甚至0racle和IBM等领先的RDBMS供应商现在也提供NoSQL数据库。
随着大数据趋势的发展,NoSQL 数据库变得越来越流行。据联合市场研究公司(Allied MarketResearch)称,到2020年, NoSQL市场的价值将达到42亿美元。但是,RDBMSes的市场仍然很大, 比NoSQL的市场要大得多。
MonboDB是几种著名的NoSQL数据库之一。
6.预测分析
预测分析是大数据分析的子集,它试图根据历史数据预测未来的事件或行为。它利用数据挖掘,建模和机器学习技术来预测接下来会发生什么。它通常用于欺诈检测,信用评分,营销,财务和业务分析目的。
近年来,人工智能技术的进步极大地提高了预测分析解决方案的功能。结果,企业已开始在具有预测能力的大数据解决方案.上进行更多投资。包括Microsoft, IBM, SAP, SAS, Statistica, RapidMiner,KNIME等在内的许多供应商都提供了预测分析解决方案。
7.内存数据库
在任何计算机系统中,内存(也称为RAM)都比长期存储快几个数量级。如果大数据分析解决方案可以处理存储在内存中的数据,而不是存储在硬盘驱动器.上的数据,那么它的执行速度将大大提高。而这正是内存数据库技术所做的。
许多领先的企业软件供应商,包括SAP, Oracle, Microsoft和IBM, 现在都提供内存数据库技术。此外,Teradata, Tableau, Volt DB和DataStax等几家较小的公司提供内存数据库解决方案。MarketsandMarkets的研究估计, 201 6年内存技术的总销售额为27.2亿美元,到2021年可能增长至65.8亿美元。
8.大数据安全解决方案
由于大数据存储库是黑客和高级持续威胁的诱人目标,因此大数据安全性是企业日益关注的重大问题。在AtScale调查中,安全性是与大数据相关的第二快的关注领域。
根据IDG报告,最流行的大数据安全解决方案类型包括身份和访问控制(由59%的受访者使用),数据加密(52%) 和数据隔离(42%) 。数十家供应商提供大数据安全解决方案,并且ApacheRanger (Hadoop生态 系统的一个开源项目)也吸引了越来越多的关注。
9.大数据治理解决方案
与安全性概念密切相关的是治理概念。数据治理是一个广泛的主题,涉及与数据的可用性,可用性和完整性有关的所有过程。它提供了基础,可确保用于大数据分析的数据准确,适当,并提供审计跟踪,以便业务分析人员或执行人员可以查看数据的来源。
在《NewVantage Partners》调查中,接受调查的《财富》1000强企业中有91.8%的管理人员认为,治理对于他们的大数据计划而言至关重要(32.5%) 或重要(39.3%) 。提供大数据治理工具的供应商包括Collibra, IBM, SAS, Informatica, Adaptive和SAP。
10.自助服务能力
在数据科学家和其他大数据专家供不应求的情况下,并要求高薪,许多组织正在寻找大数据分析工具,以使业务用户能够自助满足自己的需求。事实上,从报告研究和市场预测,自助商业智能市场产生3.61十亿的收入在2016年,可能到2021 年增长到 7.31十亿而Gartner公司指出,“现代商业智能和分析平台出现在最后几年来满足组织对可访问性,敏捷性和更深入的分析见解的新要求,将市场从IT主导的记录系统报告转变为以业务为主导的敏捷分析(包括自助服务)。”
希望利用这一趋势,Tableau, Microsoft, IBM, SAP, Splunk, Syncsort, SAS, TIBCO, Oracle等 多家商业智能和大数据分析供应商已在其解决方案中添加了自助服务功能。时间将证明非专家是否真的可以使用任何或所有产品,以及它们是否将提供组织希望通过其大数据计划实现的业务价值。
11.人工智能
尽管人工智能(AI) 的概念与计算机的历史差不多,但该技术仅在过去几年才真正可用。在许多方面,大数据趋势推动了AI的发展,特别是在该学科的两个子集中:机器学习和深度学习。
机器学习的标准定义是,它使”计算 机无需显式编程即可学习"的技术。在大数据分析中,机器学习技术使系统可以查看历史数据,识别模式,构建模型并预测未来结果。它还与预测分析密切相关。
深度学习是一种依靠人工神经网络并使用多层算法来分析数据的机器学习技术。作为一个领域,它允许分析工具识别图像和视频中的内容,然后对其进行相应处理,因此前景广阔。
专家说,这一领域的大数据工具似乎已经蓄势待发。IDC预测:“到2018年, 企业和ISV开 发的75%将在至少一个应用程序中包括认知/人工智能或机器学习功能,其中包括所有业务分析工具。"
拥有与大数据相关工具的领先AI供应商包括Google, IBM, Microsoft和Amazon Web Services,数十家小型创业公司正在开发AI技术(并被大型技术供应商收购)。
12.流分析
随着组织越来越熟悉大数据分析解决方案的功能,他们开始要求越来越快地获取见解。对于这些企业而言,具有分析数据流能力的流分析是一个圣杯。他们正在寻找能够接受来自多个不同来源的输入,对其进行处理并立即(或尽可能接近)返回见解的解决方案。当涉及到新的IoT部署时,这尤其可取,这有助于激发人们对流式大数据分析的兴趣。
一些供应商提供了承诺流分析功能的产品。它们包括IBM,Software AG, SAP, TIBCO, Oracle,DataTorrent, SQL stream, Cisco, Informatica等 。MarketsandMarkets认为, 流分析解决方案在2016年带来了30.8亿美元的收入,到2021 年可能增至137亿美元。
13.边缘计算
除了激发对流分析的兴趣外,loT趋势还引起 了对边缘计算的兴趣。在某些方面,边缘计算与云计算相反。边缘计算系统没有将数据传输到集中式服务器进行分析,而是在网络边缘非常接近创建数据的位置分析数据。
边缘计算系统的优势在于,它减少了必须通过网络传输的信息量,从而减少了网络流量和相关成本。它还减少了对数据中心或云计算设施的需求,从而释放了用于其他工作负载的容量,并消除了潜在的单点故障。
尽管边缘计算(尤其是边缘计算分析)的市场仍在发展,但一些分析家和风险投资家已开始将该技术称为“下一件大事"。
14.区块链
区块链是在比特币数字货币基础上的分布式数据库技术,也是前瞻性分析师和风险投资家的最爱。区块链数据库的独特之处在于,一旦写入数据,事后便无法删除或更改。此外,它的高度安全性使其成为银行,保险,医疗保健,零售等敏感行业中大数据应用程序的绝佳选择。
区块链技术仍处于起步阶段,用例也在不断发展。但是,包括IBM, AWS, Microsoft和多 家初创公司在内的多家供应商已经推出了基于区块链技术的实验性或入门性解决方案。
区块链是分布式账本技术,为数据分析提供了巨大的潜力。
15.规范分析
许多分析师将大数据分析工具分为四大类。第一个描述性分析只是告诉发生 了什么。下一类诊断分析将更进一步,并提供发生事件的原因。第三种类型,即预测分析,已在上面进行了深入讨论,试图确定下一步将发生什么。这与目前市场上大多数分析工具所能提供的一样复杂。
但是,尽管目前很少有具有这些功能的产品,但还有第四种更加复杂的分析类型。规范分析为公司提供建议,帮助他们实现预期的结果。例如,尽管预测分析可能会向公司发出警告,即特定产品线的市场将要减少,但规范分析将针对这些市场变化来分析各种行动方案,并预测最可能的结果。
当前,很少有企业对规范分析进行投资,但是许多分析人士认为,这将是组织开始体验预测分析的好处之后的下一个大投资领域。大数据技术的市场是多种多样的,并且不断变化。但是也许有一天,预测性和规范性分析工具将为大数据的下一步发展以及企业应采取的措施提供建议。