有人可以建议使用火花流进行日志分析的最佳方法吗

Posted

技术标签:

【中文标题】有人可以建议使用火花流进行日志分析的最佳方法吗【英文标题】:can someone please suggest best way of doing log analysis using spark streaming 【发布时间】:2016-05-29 18:11:41 【问题描述】:

我对大数据完全陌生,从最近几周开始,我正在尝试构建日志分析应用程序。

看了很多文章,发现Kafka + spark streaming是最可靠的配置。

现在,我可以处理从我的简单 kafka java 生产者发送到 spark Streaming 的数据。

有人可以提出一些建议吗? 1)我如何实时读取服务器日志并将其传递给 kafka 代理。 2) 任何可用于将数据从日志推送到 Kafka 的框架? 3) 还有其他建议吗??

谢谢, 杂烩

【问题讨论】:

【参考方案1】:

有很多方法可以收集日志并发送到 Kafka。如果您希望将日志文件作为事件流发送,我建议您查看 Logstash/Filebeats - 只需将输入设置为文件输入并输出到 Kafka。

您还可以使用 log4j KafkaAppender 将数据推送到 Kafka,或者使用许多已经可用的 CLI 工具将日志通过管道传输到 Kafka。

如果需要保证顺序,请注意分区配置和分区选择逻辑。例如,log4j appender 将在所有分区中分发消息。由于 Kafka 仅保证每个分区的顺序,因此您的 Spark 流作业可能会开始处理不按顺序的事件。

【讨论】:

以上是关于有人可以建议使用火花流进行日志分析的最佳方法吗的主要内容,如果未能解决你的问题,请参考以下文章

日志采集最佳实践

重新启动火花流应用程序的最佳方法是啥?

请问lucene可以用来做日志分析和日志故障定位吗?

Docker 日志最佳实践

您可以使用 macOS 的“日志流”或“日志显示”从连接的 iOS 设备获取消息吗?

Snoop 进程间通信