问题4:数据库不仅仅是数据仓库的重访吗?
我们中的一些人更多地了解了数据湖,特别是在过去的六个月里。有些人告诉我们,数据湖只不过是数据仓库的转世,本着“去过那里”的精神,其他人则专注于这个“有光泽的,新的”数据湖有多好,而另一些则是站在海岸线尖叫,“不要进去!这不是一个湖 - 这是一个沼泽!“
所有的开玩笑,我看到两者之间的共同点是,他们都是数据存储库。而已。但是我正在超越自己。我们首先定义数据湖,确保我们都在同一页面上。Pentaho的创始人兼首席技术官James Dixon被认为是提出这个术语。这就是他如何描述一个数据湖:
“如果你想把一个数据集市看作一个瓶装水的存储 - 清洁和包装,并容易消费的结构 - 数据湖是一个更自然状态的大量水。数据湖的内容从一个源头填充到湖中,湖的各种用户可以来检查,潜水或采样。
今年早些时候,我的同事Anne Buff和我参加了关于数据湖的在线辩论。我的集会呼声是#GOdatalakeGO,而Anne坚持#NOdatalakeNO。以下是我们在辩论中使用的定义:
“数据湖是一个存储库,以原生格式存储大量原始数据,包括结构化,半结构化和非结构化数据。在需要数据之前,数据结构和需求是没有定义的。“
下表帮助充实这个定义。它还突出了数据仓库和数据湖之间的一些主要差异。这绝不是一个详尽的清单,但它确实使我们超越了这个“在那里,做到了”的心态:
我们来简单的看看每一个:
数据。数据仓库仅存储已建模/结构化的数据,而数据库不包含数据。它将其存储为全结构化,半结构化和非结构化的。[看我的大数据是不是新的图形。数据仓库只能存储橙色数据,而数据湖可以存储所有的橙色和蓝色数据。]
处理。在将数据加载到数据仓库之前,我们首先需要给它一些形状和结构,即我们需要对其进行建模。这就是所谓的写模式。有了数据湖,您只需按原样加载原始数据,然后在准备好使用数据时,就是在给定数据的形状和结构时。这就是所谓的模式在读。两种截然不同的方法。
存储。像Hadoop这样的大数据技术的主要特点之一是与数据仓库相比,存储数据的成本相对较低。这主要有两个原因:首先,Hadoop是开源软件,所以许可和社区支持是免费的。其次,Hadoop被设计成安装在低成本的商品硬件上。
敏捷。根据定义,数据仓库是一个高度结构化的仓库。改变结构在技术上并不困难,但考虑到与之相关的所有业务流程,这可能非常耗时。另一方面,数据湖缺乏数据仓库的结构 - 这使开发人员和数据科学家能够轻松地配置和重新配置他们的模型,查询和应用程序。
安全。数据仓库技术已经存在了数十年,而大数据技术(数据湖的基础)则相对较新。因此,保护数据仓库中的数据的能力比保护数据湖中的数据要成熟得多。但是,应该指出的是,目前大数据行业正在大力推行安全措施。这不是一个问题,而是什么时候。
用户。很长一段时间,大家一直在呼吁BI和分析!我们建立了数据仓库,并邀请“所有人”来,但他们来了吗?平均而言,有20-25%的人拥有。这个数据湖是否一样的呐喊?我们将建设数据湖,并邀请大家来?不,如果你聪明。相信我,一个数据湖,在这个成熟的阶段,最适合数据科学家。
为什么这很重要
作为营销人员,您可能会听到您的组织正在建立一个数据湖和/或您的营销数据仓库是一个候选人被迁移到这个数据湖。尽管数据仓库和数据库都是存储库,但数据仓库不是数据仓库2.0,也不是数据仓库的替代品,这一点很重要。
所以要回答这个问题 - 数据仓库不仅仅是数据仓库吗?- 我的意思是否定的。数据湖不是数据仓库。它们都针对不同的目的进行了优化,目标是将每个目标用于他们设计的目的。换句话说,使用最好的工具来完成这项工作。