Apache Strom和Kafka的简单笔记 (零) - 开端

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Apache Strom和Kafka的简单笔记 (零) - 开端相关的知识,希望对你有一定的参考价值。

一.什么是实时计算系统?(流式计算)
1.离线计算和实时计算
离线计算 实时计算(流式计算)
典型代表 mapReduce Apache Strom,Spark Streaming 和JStream
数据 HDFS上 实时数据
采集数据 Sqoop(批量导入) Flume进行采集
保存结果 HDFS Redis上 (HDFS,HBase,Hive,JDBC[oracle,mysql])

2.举例 : 自来水场处理自来水
3,strom体系结构
(*) 主节点 : nimbus
从节点 : supervisor
(*) Topology任务 = spout任务 + bolt任务
spout任务 :采集数据
bolt任务 :处理数据 ,可以级联
4. Strom中的WordCount
(*) 启动过程
(1)启动ZK,zkServer.sh start -- ZooInspector工具 zookeeper查看器
(2)启动nimbus Strom nimbus &
(3) 启动从节点 strom supervisor &
(4) 启动UI: strom ui &
(5) 启动日志: strom logviewer &

(*)启动WordCount :
strom jar strom-starter-topologies.jar org.apache.strom.starter.WordCountTopology MyWC

5. 分析一个任务的数据的流动过程(strom的编程模型)
Topology任务 = spout任务 + bolt任务
spout任务 :采集数据
bolt任务 :处理数据 ,可以级联

二 基于apache strom 的实时消息处理系统,即:流式处理系统

三 传统的基于中间件 weblogic JMS的消息处理系统
1. JMS :java Messaging Service,支持Queue,Topic
2.什么是消息 ?
(*) point-to-point :Queue 队列
(*) Publish-Subscribe :Topic 广播

四 基于Apache kafka 的实时消息系统
1.只支持Topic(广播)

 





























以上是关于Apache Strom和Kafka的简单笔记 (零) - 开端的主要内容,如果未能解决你的问题,请参考以下文章

kafka和strom集群的环境安装

基于Kafka+Strom构建流式计算卖家日志系统(有赠书)

filebeat+kafka+strom+logstash+es 舆情采集系统

(数据挖掘)大数据Flume+kafka+zookeeper+Strom/Spark/Fink......

strom部署问题

Apache Strom 实时计算系统