使用Blink CEP实现差值聚合计算

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用Blink CEP实现差值聚合计算相关的知识,希望对你有一定的参考价值。

​​使用Blink SQL+UDAF实现差值聚合计算​​介绍了如何使用Blink SQL+UDAF实现实时流上的差值聚合计算,后来在与@付典就业务需求和具体实现方式进行探讨时,付典提出通过​​CEP​​实现的思路和方法。
本文介绍通过CEP实现实时流上的差值聚合计算。
感谢@付典在实现过程中的指导。笔者水平有限,若有纰漏,请批评指出。

使用Blink

一、客户需求

电网公司每天采集各个用户的电表数据(格式如下表),其中data_date为电表数据上报时间,cons_id为电表id,r1为电表度数,其他字段与计算逻辑无关,可忽略。为了后续演示方便,仅输入cons_id=100000002的数据。

no(string)

data_date(string)

cons_id(string)

org_no(string)

r1(double)

101

20190716

100000002

35401

13.76

101

20190717

100000002

35401

14.12

101

20190718

100000002

35401

16.59

101

20190719

100000002

35401

18.89

表1:输入数据
电网公司希望通过实时计算(Blink)对电表数据处理后,每天得到每个电表最近两天(当天和前一天)的差值数据,结果类似如下表:

cons_id(string)

data_date(string)

subDegreeR1(double)

100000002

20190717

0.36

100000002

20190718

2.47

100000002

20190719

2.3

表2:期望的输出数据

二、需求分析

根据业务需求以及CEP跨事件模式匹配的特性,定义两个CEP事件e1和e2,输出e2.r1-e1.r1即可得到差值。

三、CEP开发及测试结果

参考​​复杂事件处理(CEP)语句​​,CEP代码如下:

CREATE TABLE input_dh_e_mp_read_curve (
`no` VARCHAR,
data_date VARCHAR,
cons_id VARCHAR,
org_no VARCHAR,
r1 DOUBLE,
ts as TO_TIMESTAMP(concat(data_date,000000),yyyyMMddHHmmss)
,WATERMARK wk FOR ts as withOffset(ts, 2000)
) WITH (
type = datahub,
endPoint = http://dh-cn-shanghai.aliyun-inc.com,
roleArn=acs:ram::XXX:role/aliyunstreamdefaultrole,
project = jszc_datahub,
topic = input_dh_e_mp_read_curve
);

CREATE TABLE data_out(
cons_id varchar
,data_date varchar
,subDegreeR1 DOUBLE
)with(
type = print
);

insert into data_out
select
cons_id,
data_date,
subDegreeR1
from input_dh_e_mp_read_curve
MATCH_RECOGNIZE(
PARTITION BY cons_id
ORDER BY ts
MEASURES
e2.data_date as data_date,
e2.r1 - e1.r1 as subDegreeR1
ONE ROW PER MATCH
AFTER MATCH SKIP TO NEXT ROW
PATTERN(e1 e2)
DEFINE
e1 as TRUE,
e2 as TRUE
);

由于使用了print connector,从对应的sink的taskmanager.out日志中可以查看到输出如下:

task-1> (+)100000002,20190717,0.35999999999999943
task-1> (+)100000002,20190718,2.4700000000000006

对比期望输出(表2),20190717和20190718两个窗口的数据均正确,表明业务逻辑正确,但此输出与期望输出有少许差异:
(1)20190719的数据没有输出,这是因为我们设置了watermark,测试环境下20190719之后没有数据进来触发20190719对应的窗口的结束。


四、其他说明

1、对比​​使用Blink SQL+UDAF实现差值聚合计算(1)​​,我们可以看出使用CEP开发代码非常简洁,所以在跨事件处理的情况下CEP还是非常的合适。从另外一个方面讲,同样的需求有不同的实现方式,所以融会贯通Blink SQL中的各种语法,利用更合适的语法来实现业务需求,将可能大大提升工作效率和业务性能。
2、在实现本案例时,笔者发现使用CEP时有如下需要注意的地方:
(1)partiton by里的字段(如本案的cons_id),默认会带到输出里,若同时在MEASURES中定义,则可能会报类似如下错误:

使用Blink


(2)define及其内容必须定义,否则前端页面提示类似如下错误:

使用Blink

使用Blink

以上是关于使用Blink CEP实现差值聚合计算的主要内容,如果未能解决你的问题,请参考以下文章

计算两个时间之间的差值

moment实现计算两个时间的差值

两个个数相同的数组,通过交换数组内容,实现数组之和之间的差值最小

小松教你手游开发unity实用技能线性差值计算实现

在Sql语句中怎样计算出两个日期的差值

计算几何---曲面三角形差值公式