干货推荐:使用 Apache Kafka 和微服务实时分析 Twitter 趋势第一部分
Posted developerWorks中国
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了干货推荐:使用 Apache Kafka 和微服务实时分析 Twitter 趋势第一部分相关的知识,希望对你有一定的参考价值。
Twitter 上每天都会发送 5 亿多条推文。在这一系列文章中,我们将介绍构建一个可伸缩的架构来处理“实时”Twitter数据流。本文首先介绍了解决方案的整体设计思路。
Twitter 上每天都会发送 5 亿多条推文,这提供了一个令人惊叹的数据源,该数据源已被用于从探测地震到预测流感爆发等各个方面。IBM Bluemix 通过 提供了访问这个“消息管道”的能力,使开发人员能够利用此数据流构建其分析解决方案。开发人员可运行搜索查询来匹配历史推文或新推文,来获得具有丰富附加内容(比如使用深度自然语言处理算法获得的情绪)的结果。
即便如此,由于该数据源无法预测的特质,构建可处理 Twitter 数据流的应用程序依然可能极具挑战性。
大量趋势预测主题会突然涌现,产生巨大的流量,然后又会以几乎同样快的速度消失不见。
在这一系列博客文章中,我们将循序渐进介绍如何构建一个可伸缩的架构来处理“实时”Twitter 数据流。通过使用 IBM Bluemix、IBM Insights For Twitter、Apache Kafka 和Cloudant,我们将使用一系列微服务而不是一个整体式应用程序来构建一个处理管道。我们将探讨如何设计该架构来支持自动伸缩,从而响应波动的负载,以及如何处理故障而不丢失工作成果。我们将使用Node.js 和 React.js 构建前端 Web 应用程序,用该应用程序来显示“实时”分析结果。
我们将分析哪些Twitter 数据?
Twitter 已成为许多足球迷不可或缺的“第二屏幕”。在比赛期间,Twitter上会发送数百万条包含球迷观点的消息。分析有关比赛的推文,这可能是了解团队和球员表现更简单快捷的方式。
我们能否构建一个应用程序来自动执行此分析?
处理发送的所有有关比赛的推文,使用自然语言算法来计算情绪,然后“实时”显示结果。 正是实现此功能的一个开源演示应用程序!
图 1. 开源演示应用程序 Match Tracker
接下来我们会为大家推送该系列文章的另外两篇,我们将循序渐进地分析代码和架构,帮助您了解如何构建类似的应用程序。
更多信息,请阅读原文。
以上是关于干货推荐:使用 Apache Kafka 和微服务实时分析 Twitter 趋势第一部分的主要内容,如果未能解决你的问题,请参考以下文章