通过点击流分析确定热门主题,Apache Spark + Kafka 组合了解一下!
Posted developerWorks中国
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了通过点击流分析确定热门主题,Apache Spark + Kafka 组合了解一下!相关的知识,希望对你有一定的参考价值。
点击流(Clickstream)分析,
是收集、分析和报告
用户访问了哪些网页的过程,
可提供有关网站使用特征的有用信息。
它可以被用于:
A/B 测试统计分析,
在购物网站上生成推荐,
针对性广告的投放,
以及实时分析和报告热门主题。
在今天的这个 Code Pattern 中,我们将演示如何检测 Wikipedia 上的实时热门主题。要执行此任务,将会使用 Apache Kafka 作为消息队列,使用 Apache Spark 结构化流引擎来执行分析。这种组合因其实用性、高吞吐量和低延迟特征而闻名。
完成今天的学习后,我们将掌握如何:
☑ 使用 Jupyter Notebook 加载、可视化和分析数据
☑ 在 IBM Watson Studio 中运行 Jupyter Notebook
☑ 使用 Apache Spark 结构化流执行点击流分析
☑ 利用 Apache Kafka 构建一个低延迟处理流
相关组件详细介绍:
☑ IBM Watson Studio
☑ Apache Spark
☑ Apache Kafka
☑ Jupyter Notebook
☑ Message Hub
相关技术指导:
☑ 云计算
☑ 数据科学
配置模型:
☑ Cloud
即刻点击“阅读原文”获得完整教程,
get 现成的开发代码,
阅读相关的大咖博客,
还有精彩的视频演示哦~
以上是关于通过点击流分析确定热门主题,Apache Spark + Kafka 组合了解一下!的主要内容,如果未能解决你的问题,请参考以下文章
Apache HTTPClient-使用不确定的HTTP GET流
在执行spar-sql程序中报错:java.lang.NoSuchMethodError: org.apache.spark.internal.Logging.$init$(Lorg/apache/s