PowerBI 2018年10月更新 引入99.99%的人不知道的大数据分析领域神兽

2019-09-23 19:32:39 浏览数 (1)

问:为什么还没有更新10月的文章? 答:没学会呢。 问:10月PBI更新又没有特别复杂的内容。 答:非也。10月PBI更新是PBI史上里程碑。

PowerBI 2018年10月更新可谓是一次具有里程碑意义的更新,这次更新中引入了 99.99% 的人(尤其是非大数据领域业务伙伴)都不知道的大数据分析领域的神兽——企业版Apache Kylin。

由于这是一次非常重大的更新,不知是什么原因,PowerBI Team 并没有在更新的说明中提到此事,也许是因为这个融合还处于beta阶段,也许企业版Apache Kylin 特殊的战略意义,因为企业版Apache Kylin 从某种意义上是 Azure Analysis Service 的类似产品。不管如何,这次更新的历史意义必将进一步改变 PowerBI 世界。

本文分为两部分,首先快速回顾PowerBI十月的更新,接着,我们一起来认识一下 企业版的Apache Kylin。一起开开眼。

PowerBI 10月更新主要内容

按微软PowerBI Team的讲法,本月更新中最大的亮点有两个:

  • Power BI Service开始支持复合模型以及聚合。
  • 数据准备中支持模糊合并。

他们包括:

  • 报表方面
  • 筛选器卡支持搜索
  • 交互体现增强
  • ArcGIS Map 性能增强
  • 建模方面
  • DAX 编辑器改进
  • 分析方面
  • Power BI Service支持复合模型及聚合
  • 解释不可累加度量值的增长
  • 自定义可视化方面
  • Mapbox updates - 3D extrusion on fill maps & more
  • Various bar & column chart visuals by Akvelon
  • 3AG Systems – Column chart with small multiples
  • 3AG Systems – Bar chart with absolute variance
  • 3AG Systems – Column chart with relative variance
  • 数据连接器方面
  • Web By Example connector is now generally available
  • SAP BW Connector implementation v2 is now generally available
  • SAP BW Message Server Connector is now generally available
  • Vertica connector is now generally available
  • Dynamics NAV and Dynamics 365 Business Central connectors are now generally available
  • New Dynamics 365 Business Central On-premises connector
  • 数据准备方面
  • 列分布与列质量
  • 模糊匹配
  • 其他方面
  • 导出数据控制
  • 安全性控制

下面对一些重要特性做简单介绍。

打开预览功能

为了更好地理解本次更新,首先应该打开预览功能:

视觉筛选器允许搜索

如图所示:

这让用户可以快速找到可以要筛选的信息。

增强的交互式编辑体验

用户现在可以在可视化面板对选择的字段做控制,如下:

以及:

ArcGIS Map 性能改进

ArcGIS Map是PowerBI内置的一个地图服务,由于性能问题,大多数情况仍然使用默认地图。在本月的更新中,ArcGIS Map的性能做了大幅改进,支持显示30000个经纬度点。

按照 ArcGIS Map 官方的测试,以前是这样的:

可以看到在地图切换时,是有明显的加载延时及卡顿现象的。在本次改进以后是这样的:

哇,感觉速度块多了~

DAX 编辑器得到改进

DAX 是 PowerBI 中非常重要的内容,也许是最重要的,而对编辑器的支持一致是大家的诉求,本次微软PowerBI Team给出了官方的改进,它继承了类似 VS Code 的风格并给出了各种快捷方式等。

请参考:PowerBI DAX 编辑器快捷键

我们进一步来说明这个改进的编辑器如何使用:

参照上图,可以发现这个改进的编辑器有这几个特点:

  • 缩进对齐参考线
  • 有了行号
  • 右侧鸟瞰视图短横线表示光标位置
  • 右侧鸟瞰视图阴影部分表示当前编辑器可见位置
  • 右侧鸟瞰视图一对小方块表示括号的开闭位置

这让我们对整体把握 DAX代码 有了很好的帮助,当然快捷方式也是很有用:

Alt ↑ / ↓ 向上/下移动本行 Shift Alt ↓ / ↑ 向上/下拷贝本行 Ctrl Enter 在下方插入行 Ctrl Shift Enter 在当前行上方插入行 Ctrl Shift 跳转到匹配的括号 Ctrl ] / [ 缩进当前行 Alt Click 增加焦点 Ctrl I 选择当前行 Ctrl Shift L 选择所有匹配的内容,如下:

可以看到短横线表示光标匹配处的多个元素,还可以注意到右上角给出了匹配选项。

Ctrl F2 选择当前词语出现的所有位置

Ctrl Shift L 以及 Ctrl F2 可以帮助我们批量选择多个匹配的点位,进行批量编辑。这样可以大大提升编辑效率。

PowerBI Service 支持复合模型及聚合

复合模型及聚合将是PowerBI中非常重要的主题,因为这种设计将帮助PowerBI支持真正的大规模计算,核心原理在于:将汇总过的有限的数据加载进入PowerBI数据模型,将大规模数据(如:10000亿行)留在数据源端,当用户的使用可以命中聚合时使用PowerBI数据模型否则使用数据源处理。

详细描述可以参考:

  • PowerBI 零代码处理 10000 亿行数据
  • PowerBI 9月更新

现在终于可以将这个特性与云端结合起来了。PowerBI Service开始支持了。

这个特性的本质在于:预计算。如果可以命中预计算,则使用预计算,否则实时计算。利用这个特性,PowerBI便可以展示多达10000亿行规模的数据计算,因为如果无法命中预计算(缓存),则使用底层数据源进行实时计算。真正的问题来了:底层的数据源应该是什么,可以完成实时对10000亿行数据的计算

【底层的数据源应该是什么,可以完成实时对10000亿行数据的计算】这将是整个大型架构设计的核心所在,从这个数据规模来看,已经属于大数据的范畴,这个数据源不太可能是 SQL Server 数据库,因为如果数据源无法完成对10000亿数据的实时计算,那这个理论也就无法真正实现。在微软的数据架构体系下,这个数据源应该是 Azure(SQL Server) Analysis Service,它提供了企业级统一的业务语义层定义。但问题来了,在应对10000亿行数据的案例中,微软并不是用Azure Analysis Service做的演示,在现实中Azure Analysis Service也似乎无法做到满意的效果,说这么多,其实就是留给 Apache Kylin 一个引子,Apache Kylin 的进入,也许将彻底解决这个问题,后面详细描述。

解释增长和下降开始支持所有类型度量值

度量值大致分为两种(实际是3种,还有半可加度量):可加度量(如:销售额)及不可加度量(如:利润率),此前PowerBI的分析支持对可加度量寻找它增长或下降的原因,本次更新加入了对不可加度量寻找其增长或下降的原因,如下:

可以看出,对于2013年,2014年的利润率从14%以上下降到13%以下,那么是什么原因造成的呢,我们可以使用PowerBI的分析功能(右键点击该图表某年数字选择:解释此下降),则显示出该图。

这里使用了散点图来表达这个问题,给出可能的原因,例如这两年的男性客户显然没有太大变化,而女性客户的购买利润率下降比较明显,所以可以引导运营去考虑女性客户利润率下降的原因。

列分布与列质量

可以在 PowerQuery 编辑器打开该功能,如下:

这样,就可以在数据准备阶段完成初步对数据质量的控制,如下:

模糊合并

PowerBI 在数据合并种开始支持模糊合并,如下:

这可以帮助我们更高效地完成某些自定义地合并。

其他方面

对于本次更新的其他方面大家可以参考官方博客,如下: https://powerbi.microsoft.com/zh-cn/blog/power-bi-desktop-october-2018-feature-summary/

这次更新最重大的内容是:Apache Kylin。

PowerBI 引入 Apache Kylin

感性认识Apache Kylin

为了便于理解,如果不做解释,Apache Kylin 与 Kligence Enterprise 在本文中大致指的是一个概念。

首先看看样子感性认识下:

然后你可以想象到,像任何数据源一样,可以这样:

由于该连接器尚在开发中,所以很正规的告诉用户这点,然后:

这里使用具有非常大威力的【DirectQuery】。直接加载一个交易数据表,大概5秒完成,由于是DQ模式,仅仅加载数据结构而不会真正加载数据,该数据源表大小约1200W行。 在 PowerBI 中快速定义个度量值:交易数,然后很快拖拽了解下各个品牌的交易笔数如下:

非常快就出现了结果,这里用到了PowerBI和数据源结合时的两个最重要能力:

  • PowerBI 提供 DirectQuery 查询
  • 数据源 支持 DirectQuery 查询

这意味着在PowerBI中只需要加载数据源的结构,而无需加载实际数据,当用户进行操作时,PowerBI通过DirectQuery(简称:DQ查询,DQ不是你女朋友吃的冰雪皇后哦),将查询转交给数据源去处理,至于数据源是如何查询的,PowerBI不管,只要数据源给PowerBI结果就可以了。

Apache Kylin 在 PowerBI 背后完成了真正的查询,因此,支持 Direct Query 查询模式的数据源的能力就至关重要,它决定了可以处理的实际数据量级大小。

依稀记得雷军在发布小米时常常说小米是手机中的性能怪兽,那 Apache Kylin 就是大数据分析中的性能神兽

内行的人可以看出,Apache Kylin 将在大数据与PowerBI业务分析之间架起一座真正的桥梁,让业务人员真正可以驾驭超大规模数据,这不再是口号。

Apache Kylin 与 Kyligence

您可以简单理解:Apache Kylin 是 大数据分析世界的性能神兽,这里有几个要点:

  • 大数据,真正技术架构意义上的大数据
  • 分析世界,它为面对分析提供服务,而非存储
  • 神兽,Kylin(中文名:麒麟,中国远古时代的神兽),可见其地位是至高无上的

Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能够处理TB乃至PB级别的分析任务,能够在亚秒级(意思是不到1秒)查询巨大的Hive表,并支持高并发。Apache Kylin是 Apache 软件基金会顶级开源项目,而且是首个来自中国的

Kyligence(一家公司名)(上海跬智信息技术有限公司)正是由Apache Kylin 核心团队组建,是专注于大数据分析领域的数据科技公司,Kyligence 基于 Apache Kylin 进一步开发了企业级智能大数据分析产品 Kyligence Enterprise(私有部署) 及 Kyligence Cloud(云端部署)。华为、中国联通、OPPO、上汽集团、太平洋保险集团、中国银联、国泰君安、今日头条、美团等都在用。Kyligence 公司总部位于上海,目前 Kyligence 刚于2018.7完成B轮1500万美元融资。

上述内容简单讲就是:来自中国的一个神奇团队(大部分来自上海交大,非常年轻)创建了一个在大数据分析领域神兽级地位的开源项目Apache Kylin,如果你企业可以自己玩大数据,用整套技术是免费的;如果你企业不想自己什么都做,不差钱,不要紧这个神奇团队已经开了公司,提供企业级专业服务。这个公司就在上海(这次有问题终于可以有人快速解决了,甚至当面讨论了),已获B轮1500W美元融资,发展迅猛,关键的是众多存在大数据分析痛点的知名企业已经在这个公司的帮助下得到了根本性的改善,所以,也许只是您还不知道而已。

在学习了 Kyligence 深度定制的企业版 Apache Kylin 的相关技术体系后,我知道本月PowerBI的更新是里程碑式的,微软怀着开放的思维,在其构建的生态当中引进了这种来自中国的神兽,在学习了 企业版 Apache Kylin 对大数据分析的处理后,非常乐于推荐,因为很多传统企业也面临类似困境,可以业务人员由于不在大数据圈,可能根本不知道原来我们国内已经有如此先进的技术。随着对 Kylin 的学习,也越陷越深,发现这个技术从多个方面给 PowerBI 提供了 PowerBI 原本不擅长或不具备的能力,简直一发不可收拾,所以在10月更新中,免费来给 Kylin 来波广告,也欢迎深入理解 Kylin 的伙伴一起来交流,看看和PowerBI可以玩出怎样的花样。

企业版 Apache Kylin 的先进性

由于 Apache Kylin 是开源的,而 Kyligence 公司又按照客户的需求以及自己对未来的设想,将 Apache Kylin 进行了很多深入的定制形成了企业版,这里将简单说明 企业版 Apache Kylin 的先进性(开源的要做好多配置,实在玩不来),这里不对 Apache Kylin 以及 Kyligence 公司产品(Kyligence Enterprise)做严格区分,统一简称 K。(需要完全理解其区别的伙伴可以自行搜索相关信息)

Kyligence Enterprise 是 Kyligence 基于 Hadoop 的企业级智能大数据分析平台, 在 PB(Petabyte) 级数据集(10000亿行)上提供亚秒级查询响应和互联网级的高并发访问。

整体架构如下:

可以看出 K 的作用就是为 BI 层 接通 大数据层起到统一接口。

在本文使用Direct Query时,留下一个引子,就是PowerBI如何和大数据世界打通,到底谁可以支持DQ模式来给PowerBI“喂食”,可惜啊可惜,答案居然不是:Microsoft SQL Server Analysis Service,因为 Microsoft SQL Server Analysis Service 居然不支持Direct Query,虽然其支持 Live Connection,由于篇幅原因,不进行详细对比,但PowerBI在混合模式下,一定要的是Direct Query和导入数据的结合。

K 的优势从根本上解决了5大痛点。

超高性能

也许您看不懂这个图在说什么,只需要理解:在大数据分析世界默认用的是Spark SQL的查询方案,与之对比,K 的优势非常明显,所以说它是神兽。在测试中,K 在有限的硬件资源条件下,能够成功执行所有查询,大部分查询能够在3秒内返回结果,相比 Spark SQL 2.2 平均有 15 倍的性能提升。

融合式智能查询路由

这是啥意思,在PowerBI的复合模型和聚合下,会看到在处理大规模数据分析时的业界共识:预计算。PowerBI的数据模型可以加载(导入模式)已经轻度汇总的数据,如:产品及销售额,在用户查询时,如果命中则直接返回这个结果,所以很快,如果不能命中,则转交给底层数据源处理。K 其实在大数据的基础上构建了Cube,当 K 接受到查询时,它又会智能的做出判断:

如果用户的查询可以命中Cube,则从Cube中直接返回结果,这个速度非常快,而且与数据量级大小甚至没啥关系,对1亿行的集合和10000亿行的集合差不多(计算机中用算法复杂度表示为 O(1) 即常数级 )。如果不能命中Cube,再看能不能用索引处理;如果不能再将该查询进一步转到更底层的数据源去。

总之,就是在用户与真正的大数据之间设置了层层保障,尽量用最快的方式给出近乎实时的查询体验。

智能建模 - 让大数据回归业务分析

大数据其实是非常偏向技术的,而 K 居然将这么复杂的技术用非常靠近业务的方式体现了出来,这样,精通业务分析的分析人员可以无需编程,只需简单拖拽,即可快速完成多维数据建模,实现大数据的分布式处理与分析。而且 K 还引入了机器学习来实现智能分析以自动建模,致力于代替人工。

从这点可以充分看出 K 团队完全把握了时代的先机以及业务人员希望避免重复劳动的巨大痛点。

无缝整合 BI 工具与企业应用

实际上,K 可以支持各类BI,如果简单打一个比方就是:

这是一只让 BI 可以骑上去的麒麟,骑上 K ,BI工具就可以驾驭大数据。Power BI 内置了可以骑上 K 的数据连接器,也就是让业务人员可以骑上 K 。准确讲,这也是在 Kyligence 团队的努力下完成对接企业版 Apache Kylin,开源的 Apache Kylin 是不支持这个特性的。

因此,想象下作为业务人员,您可以骑上驾驭大数据的神兽麒麟,可以想象了~~~

企业级特性

为了把 PowerBI 真正落地,其实有很多问题要解决,包括:

  • 技术稳定性,兼容性
  • 多级数据访问控制
  • 单点登陆,域集成等
  • 读写分离与高可用(99.99% 时间在线可用)

以上内容,K全部支持。这也是 Kyligence 对比 Apache Kylin 提供了深度的企业级定制:

Apache Kylin 开源免费,只有企业有大数据开发团队可以自己去开发这些企业特性;但如果是传统企业希望直接投资使用企业级特性,可以考虑 Kyligence Enterprise。

另外,K 其实支持企业本地私有部署,云部署以及混合部署,所以您不用担心自己的数据是不是要上云的安全性问题。

K 的神处,不只是这些,K 可以和 SSAS 比肩,甚至也许...

总结

PowerBI 10月更新中,最重要的更新不是别的,而是微软官方提供了可以允许业务人员“骑”上可以驾驭大数据的神兽的数据连接器,有了这个连接,PowerBI彻底接通了大数据世界。想象着可以基于 PowerBI 和 企业版Apache Kylin驾驭大数据,从个人的视角看,这是一套目前相对彻底的解决方案。我们期待 K 自定义连接器的正式发布。

感谢 K 团队伙伴提供了学习上的支持,如果大家有需要研究 PowerBI 与 K 结合的,可以联系 http://kyligence.io/zh/ 或者私信BI佐罗,帮您对接。

另外, PBI 与 Kylin 共同实现驾驭大数据建模及分析完整地打开了大数据世界 , 如果大家感兴趣,欢迎留言,如果留言热烈,我会专门开设一个专题来分享 PBI 与 SSAS 以及 K 共同实现企业级建模的专题和对比研究。

0 人点赞