A terrible BUG in RANKX

2020-05-07 15:51:16 浏览数 (1)

近日,我正悠闲地喝着咖啡,写下两个度量值,看看现在大区的排名是咋样了:

代码语言:javascript复制
销售额 = SUM('销售明细'[成交额])
大区排名 = RANKX(ALL('大区表'[大区]),[销售额])

轻轻一拖,好嘛:

本来这个事情到这就该结束了。

结果,这张表上本来有个大区的筛选器,我随手一点:

小问号,你是否有很多黑人朋友?

排名第一的滨州大区结果成了第二名???这是啥情况???

吓得我赶紧点其他的选项看看:

其他几个还比较正常,但是日照大区,你的排名第7是怎么回事,你给我解释清楚!!!

诸如“我们6个其实还有个隐身的弟弟”这种谎话就不要说了!

仔细想一想,没理由啊,切片器不应该影响排名结果啊,因为我们已经ALL('大区表'[大区])了。而且右侧每一行其实都代表着筛选器,如果切片器有影响,那么行上的筛选器同样应该影响,结果没有。(右边对照的是将编辑交互去掉的。)

我们再来看同时选择多个呢:

选择单个滨州市的时候,排名显示2,选择多个后,就又变回1了。

真是怪事了。

切片器会出现问题,我们再试试筛选器栏:

还是同样的问题,滨州和日照大区在单选时都会出错。这就值得深思了。

我们先来看看RANKX的运算过程:

  1. RANKX 在第一个参数提供的表中使用迭代来构建查找表。在迭代期间,它在迭代的行上下文中计算其第二个参数。最后,它对查找表进行排序。
  2. RANKX 在原始计算上下文中评估其第二个参数。
  3. 在第一步中生成的查找表中,RANKX 搜索在第二步中计算结果的位置。

RANKX是先将大区表计算出销售额表并排名,然后在原始上下文中计算销售额,再将这个销售额在销售额排名表中进行位置确认,返回确认的位置。

计算过程比较复杂,但理论上不可能出错的。

这时,我回过头来查看了一眼powerquery中的数据,结果发现:有部分数据是精确到小数点后十几位,会不会是因为这个原因呢?

将数据格式转换为定点小数或整数:

再回到矩阵中来看看:

这下正常了。果然是数据类型的问题。

怎么会这样呢???

不过,如果数据本身精度要求很高的话,那么直接修改了数据源是不恰当的。我们可以通过写度量值时用round函数来处理精确到小数点后2位:

代码语言:javascript复制
大区排名round = RANKX(ALL('大区表'[大区]),ROUND([销售额],2))

我们将数据恢复到原来格式,再来对照看:

一切OK。

好了,结论就是:

如果数据源精度很高(小数点后十几位)的情况下,使用RANKX做销售额的排名很有可能会遇到排序出错的情况,解决办法就是用round函数将度量值的结果精确到小数点后一两位。

你学会了吗?

但是,仍然还是那个问题,为什么会这样呢?

0 人点赞