Logstash,Filebeat,Spark Streaming,Kafka简要

Posted zhangphil

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Logstash,Filebeat,Spark Streaming,Kafka简要相关的知识,希望对你有一定的参考价值。

Logstash(data collector,数据收集器)
不负责生产数据、不负责存储数据,只是数据的搬运工。一种实时的大数据采集组件,即插即用。
通常,logstash做为数据泵,泵出日志数据,logstash本身可以实时的对数据做一定强度和复杂度的适配和封装(定制成格式化的JSON帧),即进行标准化工作。
logstash是行业内老牌的数据采集器。logstash本身是JRuby实现的,JRuby跑在JVM之上,在logstash早期的版本中,由于JVM和logstash两者的原因,性能在长期连续运行后表现不佳(这导致filebeta的诞生),但随着如今Java版本的不断迭代以及logstash自身的优化,性能问题不是主要问题。


Filebeat
与logsatsh作为EL(F)K框架的组件。一般会把Filebeat放在logstash的前端做实时日志采集,然后透传给logstash做数据的装配和标准化工作,原因是filebeat比较轻量级,但轻量级也意味着filebeat可定制化不强。Filebeat适合采集固定不变的日志文件夹下的全量日志数据。
一般会在Filebeat之后再放一套logstash,原因是通过Filebeta采集的原始数据一般难以满足高度定制化的要求,而logstash可以。即Data -> Filebeat -> logstash -> ES(或数据平台)。简单的说,Filebeat负责对原始日志数据采集,logstash除了能采集数据,还可以对原始日志数据做标准化工作。Filebeat适应于对原始数据标准化要求不高的业务场景。


Spark Streaming,spark
实时流计算框架,spark监听某个目录,一旦有文件数据产生就开始计算。


Kafka
分布式发布-订阅消息系统。
Kafka产生的背景,因为LinkedIn的ActiveMQ无法满足业务增长需要,进而开发出来的Kafka。

以上是关于Logstash,Filebeat,Spark Streaming,Kafka简要的主要内容,如果未能解决你的问题,请参考以下文章

filebeat 多个日志输出到logstash后怎么区分

ETL工具之日志采集filebeat+logstash

ELK 架构之 Logstash 和 Filebeat 安装配置

ELK 架构之 Logstash 和 Filebeat 安装配置

Filebeat vs Rsyslog 转发日志

使用docker部署filebeat和logstash