Spark 应用场景示例

Posted 2023-03-13

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark 应用场景示例相关的知识，希望对你有一定的参考价值。

参考技术A

使用IDE新建Scala 或 Java 工程，确保项目结构符合 Maven 推荐的项目结构。

以IDEA为例：

从静态数据源(Parquet,Json,CVS,JDBC,Hive,RDDs)读取数据，运行分析

再 resource 目录构建一个 Json 数据源 data.json :

新建 Static Data Spark Demo.scala :

以上，我们拟对数据进行展示和基本的筛选工作(age > 10)

开启调试,可以看到 log 中Spark执行了 3 个 Job ，并已经正确输出了预期的结果。

接下来就可以根据需求进行更复杂的数据处理操作

从Kafka、Flume、S3/HDFS、kinesis、Twitter等数据源读取数据进行实时分析

例：从 Kafka 读取流数据，进行实时处理。

由于读取Kafka流式数据，我们需要模拟kafka流。

参考Kafka文档

核心文件 KafkaApplication.java

application.yml

以上，我们向Kafka服务器的 topic 为 saprk 上不断发送数据以模拟数据流。
现在，启动程序开始模拟数据流

复用上例中的目录结构，也可以新建一个 sbt 项目。

新建文件 StreamDataSparkDemo.scala

以上，我们从Kafaka服务器读取一个 topic 为 spark 的流，然后进行展示。

运行程序，输出如下：

取出数据之后，就可以用于实时分析了。

假设topic spark 为新注册的用户信息，我们可以统计新用户的每实时注册量，以及阶段内新注册用户性别比例。

在 StreamDataSparkDemo.scala 中修改

<未完待续...>

以上是关于Spark 应用场景示例的主要内容，如果未能解决你的问题，请参考以下文章