Apache Strom和Kafka的简单笔记 (零) - 开端

Posted 2020-09-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Apache Strom和Kafka的简单笔记 (零) - 开端相关的知识，希望对你有一定的参考价值。

一.什么是实时计算系统?(流式计算)
1.离线计算和实时计算
离线计算实时计算(流式计算)
典型代表 mapReduce Apache Strom，Spark Streaming 和JStream
数据 HDFS上实时数据
采集数据 Sqoop(批量导入) Flume进行采集
保存结果 HDFS Redis上 (HDFS,HBase,Hive,JDBC[oracle,mysql])

2.举例：自来水场处理自来水
3，strom体系结构
(*) 主节点： nimbus
从节点： supervisor
(*) Topology任务 = spout任务 + bolt任务
spout任务：采集数据
bolt任务：处理数据，可以级联
4. Strom中的WordCount
(*) 启动过程
(1)启动ZK，zkServer.sh start -- ZooInspector工具 zookeeper查看器
(2)启动nimbus Strom nimbus &
(3) 启动从节点 strom supervisor &
(4) 启动UI： strom ui &
(5) 启动日志： strom logviewer &

(*)启动WordCount ：
strom jar strom-starter-topologies.jar org.apache.strom.starter.WordCountTopology MyWC

5. 分析一个任务的数据的流动过程(strom的编程模型)
Topology任务 = spout任务 + bolt任务
spout任务：采集数据
bolt任务：处理数据，可以级联

二基于apache strom 的实时消息处理系统，即：流式处理系统

三传统的基于中间件 weblogic JMS的消息处理系统
1. JMS ：java Messaging Service，支持Queue，Topic
2.什么是消息？
(*) point-to-point :Queue 队列
(*) Publish-Subscribe ：Topic 广播

四基于Apache kafka 的实时消息系统
1.只支持Topic(广播)

以上是关于Apache Strom和Kafka的简单笔记 (零) - 开端的主要内容，如果未能解决你的问题，请参考以下文章

kafka和strom集群的环境安装

基于Kafka+Strom构建流式计算卖家日志系统（有赠书）

filebeat+kafka+strom+logstash+es 舆情采集系统

(数据挖掘)大数据Flume+kafka+zookeeper+Strom/Spark/Fink......

strom部署问题

Apache Strom 实时计算系统