在PowerQuery中让用户自定义筛选条件的一种解决办法
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在PowerQuery中让用户自定义筛选条件的一种解决办法相关的知识,希望对你有一定的参考价值。
参考技术A 【缘起】最近遇到一个问题:把数据导入PowerBI进行清洗时,需要对某列的文本按照一定条件进行筛选,而这个筛选条件必须由使用模板的人来确定,而不是我来确定;或者说,筛选条件必须临时快速确定下来。这样一来,我无法事先在PowerQuery中确定筛选条件究竟有哪些。
【解决思路】
研究PowerQuery中多条件筛选的语句,发现是用关键字“and”或“or”来连接的,从集合观点来看,“and”就是取多个集合的交集,“or”就是取多个集合的并集。因此,如果我们得到每个筛选词的结果(单个集合),理论上就可以得出它们的交集或并集。
由于筛选词目前无法确定,所以它是一个动态的未知数,它获取的结果也是动态的,这正好符合函数特征。因此,我们将每一次筛选过程抽象为一个函数fnFilter()。
构造这个fnFilter()函数很简单:在常规查询中,任意选定一个符合业务目标的筛选词,筛选出结果,对结果进行相应处理,最后将其转化为函数,把筛选词用filter代替,以作为fnFilter()的参数。
接下来,我们需要找到一个能够随时输入或更改多个筛选词的办法。在Power BI Desktop中,提供了一个“输入数据”的功能,可以在一个表格中手动输入(或粘贴)临时数据,因此我们用这个功能来构造筛选条件。只保留一列,列名为“筛选条件”。
随意输入几行文本作为筛选条件,然后新增一列:
注意“Source”是指我们上一步手动输入的筛选条件。这样为每一个筛选条件生成了一个筛选结果。
到这一步,成功了一大半,但是前路依然艰难,因为根据我们想要的结果——交集还是并集——的不同,处理方法和难度完全不一样。
如果我们需要用“and”来获取筛选结果的交集,则需要将筛选结果进行innerjoin的操作,需要两两进行,这意味着有n个筛选条件,就要执行n-1次innerjoin的操作,太复杂,还不如放弃,直接在PowerQuery的界面进行筛选操作。
如果我们需要用“or”来获取筛选结果的并集,就很简单了。由于fnFilter()函数产生的新列,每一行都是一个表格,所以可以直接点击列名旁边的展开符号,将表格展开,这样就将所有筛选结果合并起来了。为了保险起见,最后全选表格,剔除重复值,完毕。
接下来要做的是,教会使用者如何对手动输入数据的表格里的筛选条件进行增删改操作:在手动输入数据后生成的查询的第一步,点击旁边的齿轮符号,就会弹出用于输入数据的表格,可以对其中的筛选条件进行增删改操作。
修改完操作条件后,记得保存,然后刷新。完毕。
【延伸】
从理想角度而言,终端用户要筛选数据,完全可以在PowerBI报告中自己筛选,不用在数据清洗阶段就介入。但是目前PowerBI报告层面要对某个字段进行多条件筛选,受到很大局限——无论是并集还是交集,都只能添加两个筛选条件,当同一个字段所需的筛选条件多余两个时,就没辙了,还是只能回到PowerQuery中去。
另,如果用Excel来处理这个问题,就更简单了:利用链接表格来控制筛选条件,然后刷新即可。绝大多数人对Excel的熟悉程度远超PowerBI Desktop。由于思路和基本操作都一样,不赘述。
数据可视化之PowerQuery篇学会使用PowrQuery的自定义函数
https://zhuanlan.zhihu.com/p/64415763
使用Power Query进行复杂一些的数据处理,离不开M函数,目前已经有超过700个函数了,基本上各式各样的数据处理需求都可以使用M函数实现,如果你觉得这些还不够,或者使用起来不是很方便,也可以在PQ中自定义函数。
自定义函数的语法
如果在M编辑器中看到这个符号: => ,就是有自定义函数在里面,自定义函数的基本语法是:
函数名=(参数1,参数2,参数3……)=>表达式
函数名可以任意写,只要和M语言里的关键字不要重复就行,参数至少有1个,放在括号中,如果有多个参数,以逗号分隔,=>后面就是自定义函数的表达式。
为了保证结果的准确性,可以预先限定参数的数据类型,假如有两个参数a和b,限制为数值型,可以这样写:
函数名=(a as number,b as number)=>表达式
当然不限制也是可以的,不限制就是可以为任意类型。
参数还可以是可选的,在参数前加上optional就可以了,比如有两个参数,第一个参数a,第二个参数b是可选参数,自定义函数这样写:
函数名=(a,optional b)=>表达式
这样只要输入参数a,无论是否输入参数b都可以调用这个自定义函数了。
自定义函数示例
我们先在Power Query编辑器中创建一个简单的自定义函数,新建一个空查询,在编辑器重输入:= (x)=>{1..x},确定后出现参数调用窗口,
这个自定义函数只有一个参数x,生成从1到x的序列,指定为自定义函数后,左边的空查询类型就变成了fx,名称可以根据自定义函数的含义进行重命名,这里把函数名改成mylist。
参数x输入10,点击"调用":
就生成了从1到10到一个序列。
自定义函数的参数不是每次都要手动输入进去,同样可以调用其他数据,比如将上面的这个序列转化为表,然后添加一个自定义列=mylist([Column1])
这个自定义列的每一行数据,就是从1到第一列数据的序列,
从这里也可以看出,自定义函数mylist可以和其他标准的M函数一样使用。
自定义函数也并不是一定要提前定义好,还可以在需要的时候随时自定义,并立即使用,还是上面的这张表,需要对第一列累计求和,即计算从第一行到当前行的合计数。
添加自定义列,公式可以这样写:
累计=List.Sum(Table.SelectRows(转换为表,(x)=>x[Column1]<=[Column1])[Column1])
然后就生成一列累计数,和预想的一致,
其中(x)=>x[Column1]<=[Column1]就是一个自定义函数,该自定义函数作为Table.SelectRows的条件返回小于等于当前行的所有行,然后对筛选出的这些行的[Column1]列,使用List.Sum来求和。
不过这种在某个步骤中使用的自定义函数,只能供该查询使用,而前面生成的自定义函数mylist,可以供该文件内的所有查询使用。
其实前面的文章中也使用过自定义函数,比如使用M生成日期表就使用了自定义函数,
可以点击图片查看该文,了解利用自定义函数制作日期表的用法。
通过以上的介绍,基本可以对自定义函数有个初步的了解,其实自定义函数的用法很广泛,以后在进行复杂的数据处理时还会经常用到它。
以上是关于在PowerQuery中让用户自定义筛选条件的一种解决办法的主要内容,如果未能解决你的问题,请参考以下文章
Java8学习必备——函数式编程思维三种基本构造单元和各类函数式语言的演示
数据可视化之PowerQuery篇学会使用PowrQuery的自定义函数