Spark 应用场景示例

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark 应用场景示例相关的知识,希望对你有一定的参考价值。

参考技术A

使用IDE新建Scala 或 Java 工程,确保项目结构符合 Maven 推荐的项目结构。

以IDEA为例:

从静态数据源(Parquet,Json,CVS,JDBC,Hive,RDDs)读取数据,运行分析

再 resource 目录构建一个 Json 数据源 data.json :

新建 Static Data Spark Demo.scala :

以上,我们拟对数据进行展示和基本的筛选工作(age > 10)

开启调试,可以看到 log 中Spark执行了 3 个 Job ,并已经正确输出了预期的结果。

接下来就可以根据需求进行更复杂的数据处理操作

从Kafka、Flume、S3/HDFS、kinesis、Twitter等数据源读取数据进行实时分析

例:从 Kafka 读取流数据,进行实时处理。

由于读取Kafka流式数据,我们需要模拟kafka流。

参考Kafka文档

核心文件 KafkaApplication.java

application.yml

以上,我们向Kafka服务器的 topic 为 saprk 上不断发送数据以模拟数据流。
现在,启动程序开始模拟数据流

复用上例中的目录结构,也可以新建一个 sbt 项目。

新建文件 StreamDataSparkDemo.scala

以上,我们从Kafaka服务器读取一个 topic 为 spark 的流,然后进行展示。

运行程序,输出如下:

取出数据之后,就可以用于实时分析了。

假设topic spark 为新注册的用户信息,我们可以统计新用户的每实时注册量,以及阶段内新注册用户性别比例。

在 StreamDataSparkDemo.scala 中修改

<未完待续...>

以上是关于Spark 应用场景示例的主要内容,如果未能解决你的问题,请参考以下文章

Spark Thrift JDBCServer应用场景解析与实战案例

Flink or Spark?实时计算框架在K12场景的应用实践

请描述下大数据三大平台hadoop,storm,spark的区别和应用场景

Spark能做什么?Spark应用领域

Spark能做什么?Spark应用领域

dubbo应用场景示例二