本文8K字,60图,需要30分钟阅读,1天实践。
前言
PowerBI 战友联盟,是中国范围内由 PowerBI 从业者发起的专业学习现代商业智能的组织,我们以 PowerBI 为主题研究如何帮助企业和个人提升数字化生产力,面向 PowerBI 的国际最前沿资讯和技术,PowerBI Premium 作为 PowerBI 的企业级扛把子产品,必然要研究透彻,而可惜的是:
每月 3W 元RMB,让绝大多数个人和企业无法体验。而我们当然要想办法来体验这个终级事物。
本文介绍如何免费体验和使用 PowerBI Premium,并满足:
- 免费体验(通过领取200美元的免费额度)
- 所有 PowerBI Premium 能力的体验
- 个人也能体验(学会)
- 不需要任何代码
本文特别适合:
- PowerBI 发烧友
- 企业商业智能负责人
- 试图推进企业数字化转型的决策人
下面详细介绍,如果希望体验,您需要至少一个整天来跟随操作和对照理解,以获得沉浸式的体验。
有人说可以永久免费吗?Premium要占有微软的云端大量资源,这种占了资源不想给钱的价值观并不提倡。尤其是很多代表企业的个人。
概述
PowerBI Premium 很多人已经听过,但都因为其价格而望而却步,很多个人都希望天下都是免费的午餐,作为微软也确实为个人提供了永久免费的分析工具 PowerBI Desktop 以及 PowerBI Service 免费账号,然而,当个人代表企业的时候,那就不是个人的行为,而是企业的行为,往往包括提出这样的需求:
- 可以处理上亿(甚至更大的)数据吗?
- 可以整合所有数据分析在一个集中的平台吗?
- 可以增量更新数据吗?
- 可以性能检测调优吗?
- 可以分配更多的内存和算力来计算模型吗?
- 可以整合机器学习和AI功能吗?
- 可以免费吗?
微软的答案是:ALLEXCEPT( 能 , 除了最后一条 )。
作为身在企业的数据分析师,可能您和我一样,有一颗希望帮助企业改进的心,但毕竟我们可以使用的资源是有限的,在业务和老板没有见到和感受到 PowerBI 的变革力量前,很难推广,而本文将帮助所有人可以免费试用 PowerBI Premium 的能力,让您亲身感受并演示给你的老板和业务伙伴。
揭秘 PowerBI 战略
先开门见山给出一句恶狠狠的话:PowerBI的能力几乎代表了现代商业智能的能力。如果你要零成本用PowerBI,没有问题,下载安装建模发布分享使用。
先开门见山给出一句恶狠狠的话:没有用过PowerBI Premium,就不可能真正理解PowerBI到底是啥。如果你要应对企业级的复杂挑战,没有问题,只要不差钱,那你上Premium就对了。
很多人说会用PowerBI,实则不然,PowerBI是一个非常庞大的体系,承载了微软在数据领域巨大的远景。这个远景,PowerBI教父已经在PASS大会说的非常清楚,这个远景是由PowerBI Premium来承载的,尤其是没有体验过的人也无法理解超越时代的新东西。
PowerBI教父Amir,在很多年前就相当清晰的构建了现代商业智能的宏大设计,而能在微软这么大的体系推进PowerBI并达到目前的程度,真的很值得钦佩,作为微软商业智能企业级扛把子旗舰产品的SSAS,已经在PowerBI的体系下了,PowerBI已经成为了微软企业级扛把子旗舰产品SSAS的超集(意思是包含SSAS的所有功能,并有更多提升),这些多年来的基础,将支撑PowerBI的终极远景:
这里看出 PowerBI 战略的三大任务:
- 自助BI和企业BI的统一
- 承载所有数据准备的数据湖
- AI和BI的统一
自助BI和企业BI的矛盾与统一
自助BI和企业BI往往形成一种矛盾:
- 自助BI靠业务;企业BI靠IT;
- 自助BI要效率;企业BI要性能;
- 自助BI要灵活;企业BI要统一;
- 自助BI要自由;企业BI要规则。
微软商业智能经过10多年的演化,已经逐渐解决了这些矛盾并加以统一,那就是:将基于世界标准的Excel的简单与将基于SSAS的强大,取其平衡,用内置DAX引擎的PowerBI配合相关技术形成一个体系作为SSAS的超集面向企业及企业内的所有个人提供一站式终极商业智能能力。
简单理解到底什么是 PowerBI Premium
首先要理解到底什么是 PowerBI Premium,这个真的是一个难题,甚至连微软自己的人都很难说清楚这件事,下面给出一个近似的公式来帮助大家理解:
PowerBI Premium 相当于以下内容的合集:
- 桌面工具(PowerBI Deskto)
- 云端工具(PowerBI Service)
- 独立计算资源
- PowerBI 报表服务器
- 企业级的特殊功能
这里不难通过 PowerBI 官方文档得知,很多对 PowerBI Premium 的能力的开放都是基于独立计算资源的,而为了获得独立计算资源,其本质是可以在Azure中开启一个独立的给到PowerBI的资源。 因此,我们的问题就转化为如何使用一块Azure中独立的计算资源。
国际版 Azure 提供一定的免费额度
我们利用国际版 Azure 提供的免费额度,来做这件事即可,其流程非常简单,只需要在国际版 Azure 中注册就可以享有这些免费额度。
进入:www.azure.com,然后可以免费开始使用:
微软提供了200美元(约1300元RMB)的额度,这样就可以利用这些额度来体验Azure中的各种应用,当然也就包括本文所说的 PowerBI Premium,请再看下前面对 PowerBI Premium 的解释。继续操作:
然后你就得到了价值200美元的Azure资源费用。接下来就是在Azure中启用独立计算资源的问题了。这里Azure采用一项叫做Power BI Embedded的独立计算资源。
使用PowerBI嵌入式的A4容量级别
这里简单介绍流程,原因就不再赘述:
- 在Azure中创建一个资源组
- 在资源组中创建一个PowerBI嵌入式的A4容量
- 选择地区时,优先使用东亚中国香港以保持一个比较近的物理位置
选择 A4 容量级别:
这里解释下原因:只有达到一定级别,才能支持PowerBI的云端所有能力,如分析报表,AI等。创建好以后可以看到:
这是可以随时调整的,但为了试用PowerBI Premium的能力,应该选择至少 A4 级别。一个月接近 4W RMB,个人是真的用不起的,幸好可以试用。
这样就好了。可以进入PowerBI来设置了。
开启了PowerBI高级版
在完成上述内容后,在PowerBI中就可以看到:
这里可以看出,我们实际上并没有购买 PowerBI Premium,而仅仅是开启了 Azure 中的独立计算资源,这在 PowerBI 看来,本质是一样的,所以它认为你购买了 PowerBI Premium,才弹出这样的欢迎界面,以彰显钻石级的尊贵企业级别。
将工作区装入高级容量
在阅读本文之前,大家都知道PowerBI的工作区,那就像是共享经济,微软把全世界的小白和免费用户以及pro用户都装入一个共享的超级大内存,就像1W人共享1K G内存,总有很多人不同时登陆,这样PowerBI就形成了一个共享经济。
我们的工作区默认就在这样的共享生态下,处于像地铁一样的人人可用的环境下。而在我们购买了高级容量后,就像是我们打车了,现在只要告诉说,哪个工作区(乘客)可以不坐地铁,而改做尊贵的专车呢,只需要简单配置,如下:
这里就将这个工作区装入了位于东亚中国香港地区国际版Azure的专车中。如果使用了新的工作区风格(准确讲,底层物理结构不同了),建议使用新的工作区风格(模式),则有:
我们将这个 Excel120 工作区放入了专用的容量,也即是独立的计算资源,这个资源的地址就是工作区连接,可以在DAX Studio之类的工具进行连接:
这足以说明这是专属于你的专车了,因为只有专车才让你连,地铁是不让你连接的。然后就可以看到令人激动的钻石了:
我们为工作区(新工作区风格)还可以设置LOGO,更加有个性,以彰显我们的高级调性。标记钻石的工作区就会使用在Azure中已经初始化的A4独立计算资源。
用DAX Studio进行性能监测
PowerBI Premium 管理门户
默认情况下,进入专车的工作区仅仅是在默认计算能力上增强了,但工作区内是仍然无法使用 PowerBI 体系的高级功能的,如:机器学习,AI,分页报表都算是高级功能,默认并不能使用。
为了可以使用 PowerBI体系 的高级功能,必须满足两个条件:
- PowerBI 高级专有容量的级别,也就是说,需要的不是仅仅是专车,而是高级专车。
- 主动对 PowerBI体系进行 配置,启用高级特性。
这也就解释了为什么我们一开始说在 Azure 中要使用 A4 级别的高级容量,具体的等级划分和功能特性说明可参考微软官方文档。
现在,我们就来设置高级专车。我们进入 PowerBI 管理门户(必须是PowerBI管理员),可以看到:
【购买】二字赫然在此,可惜个人真的买不起啊,因此我们点击【Power BI Embedded】就可以了:
哈哈,有了。这是因为我们登录注册Azure和管理PowerBI的是同一账号。
在容量设置中可以看到:
然后可以开启工作负载和数据流等高级企业级服务:
值得强调的是,如果你用了低于 A4 级别的容量就会是上面的样子,看不到分页报表的高级功能,如果是 A4 级别的容量,就可以看到:
这样,就可以在 PowerBI 中承载企业级分页报表了。来看看健康产业是干嘛的:
原来是性能监控。这个翻译【健康产业】也是醉了。至此,我们就彻底解锁了 PowerBI 的所有高级能力。
从 PowerQuery 到 数据流
Power Query 是一套非常简单的工具,由于其设计机制,它可以将对数据的操作以及操作的流程完全映射为对应界面按钮的操作,Power Query 的优势和劣势很清楚:
- Power Query 易于操作,可以由业务人员完成。
- Power Query 没有可以落地的中间平台(莫不是传说中的企业中台)。
Power Query 的运行环境决定了它可以处理的工作,让我们一起来看看企业级的 Power Query会是怎样的呢。
理解数据流就可以构建企业中台
数据流,是在整个PowerBI体系中非常重要的环节,它是统筹整合企业内所有数据的工具,数据流是这样的:
如果不够直观,再来看:
如果还不够直观,那么让数据流和传统ETL对比一下:
可以看出一件事,那就是 Power Query 作为了数据流的关键组件,已经承载了战略级任务。
熟悉 PowerBI 的伙伴都知道一件事情,在 PowerBI 中,使用编辑查询(也就是 Power Query)建立的一种端到端的通道,它并不能在中间把数据落地,这样就导致会产生很多重复,以及性能问题,对于个人的报表可能还好,而对于解决企业级的统一全局式的数据流动,是无法应对的。
微软基于 Azure 构建了成为 Azure Data Lake Gen 2 (Azure 第二代数据湖),数据湖,顾名思义,就是为了让数据流入的海量存储体,它同时可以为机器学习以及AI提供数据基础。数据流是通过 Power Query 定义的,而数据流就像是一条条的小溪,汇聚进入其他小溪,最终进入数据湖,而这仅仅是刚刚开始。
在数据流中落地的对象,叫做:实体,顾名思义,他是落地了的实实在在的数据。现在就一起来展开实践。
创建数据流
在 PowerBI 云端选择工作区,并点击创建,选择数据流:
可以看出,要么直接从数据流构建最终的实体,要么从其他数据流构建的实体出发再进行进一步操作。
这里点击【添加新实体】,可以看到:
这和 Power Query 可以获得的数据源真的完全一样,这样就可以将 Power Query 的目标结果导向云端。这里建立一个示例:
由于数据来自于本地,必须使用数据网关,这些在【PowerBI商业智能基础系列】的课程已经非常详细的说明,此处就不再赘述了,可以看到:
完成。
构建数据实体 - 实实在在的存在
链接的实体 - 用已经做好的实体
我们使用【订单】来提取最后的刷新日期:
这里注意,如果是在PowerBI Desktop中:
- 订单作为查询,会从数据源加载一遍数据(订单数据)
- 最后刷新日期作为查询,会从数据源加载一遍数据(订单数据)
这在企业级是不适用的,必须可以存储中间环节,可以注意这里的【最后刷新日期】有一个闪电的标记,它表示基于已经存在的实体构建,够快,够强。
设置增量刷新
当数据流从本地刷新数据,必然可能涉及到大量数据,所以必须提供增量刷新的能力,如下:
这样,我们每次的定时刷新只会刷新最近60天的数据。
直接使用机器学习模型
在构建好实体和增量刷新以外,我们可以直接针对实体进行机器学习,非常简单:
我们可以利用已有的机器学习模型,或者单独构建,这块我们会在未来的内容中说明。大家只需要知道这里可以机器学习就好。
基于数据流的数据流
我们再来构建另一种数据流:
这种数据流选择从链接的实体进行。我们选择刚刚构建的数据流中的两个实体:
然后建立一个合并查询,就像在Power Query中完全一样:
制作聚合数据:
形成了聚合的数据:
可以看到,这样就有了一个叫【产品订单】的被聚合过的数据。不难发现:
- 产品 和 订单 作为实体,只存在一份。
- 产品订单 是基于两个实体进行处理后得到的聚合数据。
- 这非常适合有效降低数据量被提供给PowerBI作为数据源。
问题来了:如果【产品订单】依赖的【产品】和【订单】中的数据发生了变化,怎么办?
形成级联数据流
我们回到数据流,对【Excel120】这个数据流点击刷新,可以观察到【汇总数据流】也会跟着自动刷新:
这是为什么呢?
级联数据流在这里是非常重要的概念,当【Excel120】这个数据流刷新的时候,由于【汇总数据流】是依赖于此的,因此【汇总数据流】就会自动刷新。这正如PowerBI教父Amir所言:”这就像Excel,当Excel的一个单元格值变化时,所有引用该单元格的Excel数据都会重新计算并得到新值。“
而级联数据流就像在企业中把所有的数据都当成了数据单元,形成彼此的依赖和引用,当底层数据流发生变化时,依赖于此的数据流也会由于级联关系,而发生连锁反应,这个链条连绵不绝,形成了终极的企业级数据流层次结构。
在数据流中集成AI功能
数据流中有数据,我们希望对数据进行机器学习或者AI都可以,这里再来演示AI的能力:
识别客户的语言:
结果如下:
如果你的餐厅有外国人来就餐,那么都可以识别。
再来识别客户评价所反映的客户的心情,也就是满意度的一种近似表示:
结果如下:
可以看出,上述使用AI功能的方式,都是通过 Power Query 提供的,可见 Power Query 未来将在整个数据的过程中扮演的角色。
不要试图代替数据科学家,数据科学家可以通过R或Python编写机器学习算法并运行在Azure平台,作为高级资深数据分析师应该面向业务,只需要通过 PowerQuery 使用这些算法即可。
PowerBI Desktop 使用数据流进行数据建模
打开PowerBI Desktop,直接获取数据:
请仔细留意这个数据源的排序,Excel是第一;PowerBI数据集是第二;PowerBI数据流是第三。这已经充分说明问题了。未来,Excel,PowerBI数据集,PowerBI数据流将是非常重要的地位。
然后,不做任何可视化的工作,可以建模或建立度量值,然后发布。
发布到享有高级容量的工作区。
形成云端数据集
此时,这个数据集依赖云端数据,而这个数据集本身就是一个模型,也等价于:SSAS,CUBE,小型数据仓库,数据集市,叫什么都好。从某种意义上,这种模式的不断扩大,就会形成一个多种数据集的平台。
PowerBI Service 端制作纯PowerBI报表
现在要做的事情,就是制作PowerBI报表,这可以直接在数据集上进行操作:
PowerBI Desktop 端制作纯PowerBI报表
或者直接从 PowerBI Desktop 端制作纯 PowerBI 报表:
选择我们构建的数据集即可,如下:
可以看出,这里只有一个纯可视化的区域,并显示实时连接到 Power BI 数据集。
这样就可以进行可视化的报告设计了。
问题来了,如果模型没有提供需要的度量值怎么办?哈哈,不用怕。
微软居然在PowerBI的纯可视化中提供了新建度量值的能力,这样既没有破坏模型,又可以增加自己需要的度量值,可谓:非侵入式设计的典型表现。
总结
至此,我们终于完全概览了 Power BI Premium 给我们带来的能力,这里面由于篇幅和工作量,对于 CDM,第二代数据湖还有企业级分页报表并没有深入介绍,这些会在未来的文章中再做介绍。
从数据流到最后展现的整体流程为:
简单总结如下:
- 通过数据流的能力,将任意数据整合进入企业数据湖。
- 在数据湖中,通过数据流的能力,将数据做任意变换,形成数据实体。
- 数据实体可以经过机器学习训练模型。
- 数据实体可以经过AI加以丰富。
- 数据实体可以增量加载以加快速度。
- 数据实体在高级容量中以得到加速和专门的算力。
- 数据实体为数据建模提供了公共的基础。
另外,值得强调的是:
数据准备,数据建模,制作报告三大部分已经彻底解除耦合,专业的人可以做专业的事,可以专门有人负责:梳理数据及制定标准;负责数据建模并编写DAX;负责制作符合标准的商业可视化报告。对于这三个部分,我们已经提供了非常强大和成熟的课程,这里就不再赘述。
从而,我们可以看出:PowerBI Premium 非常之凶残,只要你不差钱,把容量开起来,只当雇了一个年薪50W的IT而已,整个企业的数据全部可以得到集中的整合,并为企业中所有成员提供前所未有的分析能力,对于一个年销售额达到亿级的企业,将销售额的3%作为IT预算,也就是军事预算,这实属标配。
当你的竞争对手,还在用 Excel 做刀时,你完全可以使用 PowerBI Desktop 做枪; 当你的竞争对手,试图用 普通商业智能 做枪时,你完全可以使用 PowerBI Desktop 做枪,分析服务做炮; 当你的竞争对手,竟敢用 大数据大中台 做啥时,你完全可以使用 PowerBI Premium 做数字军队并配备系统化大杀器。
PowerBI Premium,彻底灭了他。当然,您千万不要做那个被傻傻被灭的企业老板。
PowerBI Premium,一切才刚刚开始。
可惜的是,居然在中国不能用。
说了半天,微软在中国竟然并没有提供 PowerBI Premium 服务,那么,可以选择国际版服务,也可以考虑很多可替换的方案,我们在未来的文章中为大家分享。