PowerBI 迎来史上最大更新：数据流

近日，PowerBI 推出【数据流】，有心的伙伴可以已经留意到该更新。而据 PowerBI总架构师 Amir Netz 称：

11月对于PowerBI有重大意义，大量更新将至，这是PowerBI历史上最重大的更新，而这个里程碑就是：数据流。本文将和大家一起：

理解数据流
理解 CDM
理解数据流及 CDM 对 BI 的深远影响
实践做第一个企业数据流

背景

我们知道作为自助BI的PowerBI，具有以下优势：

降低对IT人员的依赖
增强了终端用户的能力
更快地从数据获得价值

这些好处无需多言，而我们也同时清楚 PowerBI 存在的痛点，或者说自助BI领域共同的痛点：

存在大量重复的劳动
数据一致性问题
不够高效

举个很简单的例子：如果有一个PBI文件获取了销售事实数据表达 10 亿行，但这个数据却无法用于云端其他的PBI文件；而每个文件由于获取数据和处理数据的逻辑差异导致数据差异，导致最终计算呈现结果的差异；而整个过程全部从终端用户自行发起，有很多可以重用的数据处理过程并没有得到有效整合。

这并非是一个新问题，在传统的数据仓库领域，数据仓库就是做这件事，将企业的数据统一地按照一致的业务规则整合在一起，以备分析之用。

这个过程被称为：ETL。以往这个过程将完全由IT实现，而且是一个非常繁重的过程。从一定意义上说，如果没有ETL的支持，那么BI很难真正实现。

PowerBI 引入数据流及 CDM

PowerBI 于 2018.11.6 正式引入 DataFlow（数据流），之前也叫 DataPool，现已统一更名为 DataFlow。其作用就是为了解除上述的痛点。

目前 PowerBI 的架构是这样的：

可以发现，其实并没有机会去做数据处理部分，这部分被完全内置在数据网关执行（M 引擎执行PowerQuery），那么引入DataFlow后：

可以简单理解为将数据准备的逻辑完全抽离出来并加以管理，以实现可以重用。那自然涉及到一个问题，处理好的数据既然是可以重用的，就必须有一个统一的存储位置，并且可以被复用，这就完美和现有的 Azure DataLake v2 结合起来，如下：

DataLake（数据湖）的概念最近也是比较火热，我们也将会后续越来越多了解这些。总之，我们知道这些数据统一被存储在Azure中以备使用（而不是存储在PBI数据集）。

如果想要统一使用数据，大家就必须遵守一致的标准，这是任何企业都面临的也是非常难做到的一个部分。对此，微软提出了CDM（Common Data Model：通用数据模型）的架构，结合微软多年经验，微软预先定义了一套实体，微软后续很多智能化的应用，都会基于CDM进行；当然，如果企业能够不断重视自己的标准，也将产生大量可重用内容。

可以从三点简单理解CDM：

首先，这是一套开源的定义。
其次，这套定义可以扩展，这样任何内容都可以兼容并包。
第三，这套内容可以跨越多种应用使用。

可以在这里看到其开源的定义：

https://github.com/Microsoft/CDM

首先我们可以看到：

CDM将成为微软生态承载所有企业应用数据的中心，而且作为一种标准，所有的应用都可以直接利用其数据，由于其定义是标准的，那么甚至可以直接拖拽出一个App来，这就是PowerApps（我们将在后续进一步分享）。

微软预先定义了这些标准：

这些标准定义是成熟的，得益于微软多年在企业相关产品的积累，现在把这些定义标准化并开源，如果软件的开源可以带来生产力，那么数据标准的开源也将带来重大生产力，也许你的企业已经有对例如销售的Order的定义，那么可以将已有的定义与微软CDM中Order进行映射（稍后案例中提到）。

这样，PowerBI 与其他应用将形成一种统一的底层数据：

因此，所有应用（微软及非微软的），都可以按照CDM的标准，通过数据流导入到CDM存储中，PowerBI作为企业统一BI平台可以重复利用这些一致的数据。

值得想象（并非想象）的是，由于这些内容实际使用Azure DataLake存储，基于Azure DataLake，微软提供了AI和Machinelearning等服务，考虑到这里又使用了CDM，也就是标准的定义，那么AI将很容易引入数据分析成为一种服务，而无需复杂开发。这将是对企业的重大利好，也是微软在Bigdata&BI&AI的巧妙结合，这对竞争对手来说，是挺头疼的了。