Spark 应用场景示例
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark 应用场景示例相关的知识,希望对你有一定的参考价值。
参考技术A使用IDE新建Scala 或 Java 工程,确保项目结构符合 Maven 推荐的项目结构。
以IDEA为例:
从静态数据源(Parquet,Json,CVS,JDBC,Hive,RDDs)读取数据,运行分析
再 resource 目录构建一个 Json 数据源 data.json :
新建 Static Data Spark Demo.scala :
以上,我们拟对数据进行展示和基本的筛选工作(age > 10)
开启调试,可以看到 log 中Spark执行了 3 个 Job ,并已经正确输出了预期的结果。
接下来就可以根据需求进行更复杂的数据处理操作
从Kafka、Flume、S3/HDFS、kinesis、Twitter等数据源读取数据进行实时分析
例:从 Kafka 读取流数据,进行实时处理。
由于读取Kafka流式数据,我们需要模拟kafka流。
参考Kafka文档
核心文件 KafkaApplication.java
application.yml
以上,我们向Kafka服务器的 topic 为 saprk 上不断发送数据以模拟数据流。
现在,启动程序开始模拟数据流
复用上例中的目录结构,也可以新建一个 sbt 项目。
新建文件 StreamDataSparkDemo.scala
以上,我们从Kafaka服务器读取一个 topic 为 spark 的流,然后进行展示。
运行程序,输出如下:
取出数据之后,就可以用于实时分析了。
假设topic spark 为新注册的用户信息,我们可以统计新用户的每实时注册量,以及阶段内新注册用户性别比例。
在 StreamDataSparkDemo.scala 中修改
<未完待续...>
以上是关于Spark 应用场景示例的主要内容,如果未能解决你的问题,请参考以下文章
Spark Thrift JDBCServer应用场景解析与实战案例
Flink or Spark?实时计算框架在K12场景的应用实践