将数据导入 Spark Streaming

Posted

技术标签:

【中文标题】将数据导入 Spark Streaming【英文标题】:Getting Data into Spark Streaming 【发布时间】:2015-05-07 18:13:13 【问题描述】:

您好,我是 spark 新手,我正在尝试使用 Meetup 的 RSVP stream 实现一个简单的 spark 流应用程序。

知道如何将流连接到 Spark Streaming 吗? 我正在尝试 rawSocketStream 但不确定参数是什么(即端口) 谢谢

【问题讨论】:

这只是一个 html 页面,您需要访问原始流。 @MariusSoutier 是的,可以使用 stream.meetup.com/2/rsvps 访问流。我想知道如何将该流导入 Spark Streaming。 【参考方案1】:

我认为你可以使用socketTextStream来获取流:http://stream.meetup.com/2/rsvps

让我们看一个例子:

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.StreamingContext._

// Create a local StreamingContext with two working thread and batch interval of 1 second
val conf = new SparkConf().setMaster("local[2]").setAppName("meetup")
val ssc = new StreamingContext(conf, Seconds(1))
// Create a DStream that will connect to http://stream.meetup.com/2/rsvps:80
val lines = ssc.socketTextStream("http://stream.meetup.com/2/rsvps", 80)

希望对你有帮助。

【讨论】:

这不起作用。你会得到一个 java.net.UnknownHostException。需要创建自定义接收器。可以在此处找到示例之一:github.com/actions/meetup-stream/blob/master/src/main/scala/…

以上是关于将数据导入 Spark Streaming的主要内容,如果未能解决你的问题,请参考以下文章

spark->es快速导入数据

Spark Streaming 容错改进与零数据丢失

Spark Streaming 容错改进与零数据丢失

spark-streaming任务提交遇到的坑

怎么用spark 将mysql数据导入 hive

将大数据从 Hadoop 导入 Spark 的有效方法