流式传输 Kmeans Spark JAVA
Posted
技术标签:
【中文标题】流式传输 Kmeans Spark JAVA【英文标题】:Streaming Kmeans Spark JAVA 【发布时间】:2016-08-25 09:45:43 【问题描述】:嗨,基本上我们想使用 KAFKA+SPARK 流来捕获我们论文中的 Twitter 垃圾邮件。我想使用streamingKmeans。但我有一个非常新手和严肃的问题:
在这个 spark StreamingKmeans scala 示例 (https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingKMeansExample.scala) 中有一行代码用于预测:
model.predictOnValues(testData.map(lp => (lp.label, lp.features))).print()
为什么我需要传递带有 features 的“LABEL”?我的意思是,我错了整个想法吗?我们不是要预测“标签”吗?如果它们是垃圾邮件,我将如何预测我的推文?
【问题讨论】:
【参考方案1】:对于预测,仅使用 lp.features
,而 lp.label
被视为保留的密钥。引用自docs:
使用模型对 DStream 的值进行预测并继承其键。
我猜在你的例子中你只是想用predictOn
替换predictOnValues
【讨论】:
谢谢先生。我一定会试试这个。顺便说一句,你知道我可以加入任何 gitter 或 slack 房间来问我的问题吗? 感谢您接受答复。我不会有这样的房间,但我认为 SO 总是非常愿意回答恰当的问题以上是关于流式传输 Kmeans Spark JAVA的主要内容,如果未能解决你的问题,请参考以下文章
pyspark:使用从 kafka 检索到的数据训练 kmeans 流式传输