三分钟了解实时流式大数据分析
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了三分钟了解实时流式大数据分析相关的知识,希望对你有一定的参考价值。
三分钟了解实时流式大数据分析
大家好,今天为大家介绍华为云实时流计算服务CS,希望通过本次分享,大家能对华为云实时流计算服务的服务能力和业务场景有所了解。
我们先了解一下实时流计算背景。下面列举的是流数据普遍产生的四个方面:一、日志;二、物联网,也就是传感器或者边缘设备所产生的数据;三、车联网,也就是车辆行驶过程中或者车载系统所产生的数据;四、StreamingML。流数据普遍产生,但并没有充分产生价值。那么什么是实时流计算呢?实时流是指计算框架按事件逐条实时处理,one-by-one的数据流。计算,是指数学运算数据分析,算法模型执行等。实时流计算是指实时处理当下正在发生的流数据,逐条大数据分析或运行机器学习算法。
以上这幅图是一个事件时间和执行时间的曲线。相对于事件时间,也就是事件发生的时间来说,执行时间也就数据处理时间有一个延迟。目前技术发展加速度不断上升,人的耐心程度在下降,而大数据增速在不断上升。所以实时流计算需要快速驱动业务,最大限度挖掘数据价值。
以上这幅图就是时间和数据价值的曲线。我们可以看到距当下时间越近,每GB所产生的价值越高,几乎是呈一个指数型的函数,因此大数据AI越实时越有价值。当前的开源流数据的框架许多包括APACHE STORM、Aakka、kafka等等,但是目前主流的框架主要是Apache Spark和Flink, 实时流计算服务,正是基于这两种框架。
那么实时流到底是什么?实时流计算服务(Cloud Stream Service, 简称CS)提供实时处理流式大数据的全栈能力, 简单易用, 即时执行Stream SQL或自定义作业。无需关心计算集群, 无需学习编程技能。完全兼容Apache Flink和Spark API。华为云实时流计算服务主要提供如下功能:1.StreamingML :提供多种流式机器学习方法对数据进行实时分析与预测,用户仅需编写SQL调用相关函数便可实现数据统计,异常检测,实时聚类,时间序列分析等场景;2.地理位置分析:提供地理位置分析函数对地理空间数据进行实时分析,用户仅需编写SQL便可实现例如偏航检测,电子围栏等地理分析场景;3.CEP SQL:提供基于Match Recognize的模式匹配检测,帮助业务人员使用SQL实现基于复杂事件规则的异常检测业务。典型应用场景如欺诈检测、车辆异常行为检测、工业设备异常运行状态检测等;4.可视化:提供多种图表类型实时展示作业数据输出,用户可以通过API网关服务自由访问作业数据,接入自定义工作流中。应用场景包括易用、低时延、高吞吐的实时流分析;物联网行业应用,即物联网设备或边缘设备,上传数据到数据接入服务(DIS)或者其他云存储服务,CS直接从DIS读取数据,实时分析数据流(故障检测、数据清洗、统计分析、指标预警等等),实时把流分析结果持久化或推送告警通知等。
想要学习更多实时流相关内容及如何使用吗,现在进入华为云学院(https://edu.huaweicloud.com/courses/) 即可免费学习最新课程《华为云实时流计算服务》,快速了解低时延、高吞吐、高可靠的分布式实时流计算服务!
以上是关于三分钟了解实时流式大数据分析的主要内容,如果未能解决你的问题,请参考以下文章
流式大数据处理的三种框架:Storm,Spark和Samza
流式大数据处理的三种框架:Storm,Spark和Samza
流式大数据处理的三种框架:Storm,Spark和Samza