流式传输 Kmeans Spark JAVA

Posted

技术标签:

【中文标题】流式传输 Kmeans Spark JAVA【英文标题】:Streaming Kmeans Spark JAVA 【发布时间】:2016-08-25 09:45:43 【问题描述】:

嗨,基本上我们想使用 KAFKA+SPARK 流来捕获我们论文中的 Twitter 垃圾邮件。我想使用streamingKmeans。但我有一个非常新手和严肃的问题:

在这个 spark StreamingKmeans scala 示例 (https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingKMeansExample.scala) 中有一行代码用于预测:

model.predictOnValues(testData.map(lp => (lp.label, lp.features))).print()

为什么我需要传递带有 features 的“LABEL”?我的意思是,我错了整个想法吗?我们不是要预测“标签”吗?如果它们是垃圾邮件,我将如何预测我的推文?

【问题讨论】:

【参考方案1】:

对于预测,仅使用 lp.features,而 lp.label 被视为保留的密钥。引用自docs:

使用模型对 DStream 的值进行预测并继承其键。

我猜在你的例子中你只是想用predictOn替换predictOnValues

【讨论】:

谢谢先生。我一定会试试这个。顺便说一句,你知道我可以加入任何 gitter 或 slack 房间来问我的问题吗? 感谢您接受答复。我不会有这样的房间,但我认为 SO 总是非常愿意回答恰当的问题

以上是关于流式传输 Kmeans Spark JAVA的主要内容,如果未能解决你的问题,请参考以下文章

pyspark:使用从 kafka 检索到的数据训练 kmeans 流式传输

Twitter使用Spark流式传输

带有广播连接的 Spark 流式传输

如何在不中断流式传输作业的情况下更改 spark spark 流式事件中的 json 架构?

Spark 流式传输 Kafka 消息未使用

使用 Spark 流式传输的 Redshift