端到端测试大数据管道的工具?
Posted
技术标签:
【中文标题】端到端测试大数据管道的工具?【英文标题】:Tools to test a BigData Pipeline end to end? 【发布时间】:2016-05-12 03:09:03 【问题描述】:我有这个管道:Webserver+rsyslog->Kafka->Logstash->ElasticSearch->Kibana
我找到了这些工具来帮助测试我的管道:
-
通过使用jmeter-ec2 启动 jmeter EC2 实例来生成 Web 服务器负载
在 Kafka 上生成负载并使用 Sangrenel 帮助图形吞吐量
我想知道是否有人对测试组件或端到端测试有任何其他建议?谢谢。
【问题讨论】:
【参考方案1】:好问题!我正在寻找类似的东西,但可能会选择一个简单的家庭解决方案。
-
设置 Storm 集群,使用螺栓将数据写入 Kafka。需要注意的一件事是 id/key,因此您的消息分布在多个分区中。 Storm 的原因是有一组分布式发布者。作为 Storm 的替代方案,您可以拥有多个生产者,比如说 KafkaAppender
了解 Kafka 性能后,将 Logstash 连接到加载的主题,并让它尽快耗尽。您可以通过 KafkaManager 或连接到 JMX(许多工具)找到一些有用的信息
监控 Elastic 的最简单方法是 Marvel
Kibana 的性能取决于您的查询返回的数据量,但最小间隔仍然是 5 秒。
根据我的经验,logstash 性能将取决于数据大小和复杂性。 Elastic 的性能主要是集群大小、分片/模板配置。设置中最快的组件将始终是 Kafka(受 ack 和 Zookeeper 设置限制)
此外,如果您控制数据生成,您可以比较生成记录的时间与 logstash 的 @timestamp 并衡量滞后。
【讨论】:
以上是关于端到端测试大数据管道的工具?的主要内容,如果未能解决你的问题,请参考以下文章