比较 druid 和 pipelinedb
Posted
技术标签:
【中文标题】比较 druid 和 pipelinedb【英文标题】:Comparing druid and pipelinedb 【发布时间】:2016-10-20 00:58:23 【问题描述】:我一直致力于聚合流数据,我找到了 2 个工具来实现相同的目标。他们是 druid 和 pipelinedb。我已经了解了两者的实现和架构。但是无法找到对这两者进行基准测试的方法。是否有任何现有的基准测试已经完成?或者,如果我想自己进行基准测试,除了速度和可扩展性之外,我还需要考虑哪些因素。任何想法、链接和帮助都会非常可观。也请分享您自己使用 pipelinedb 和 druid 的经验
谢谢
【问题讨论】:
你找到什么了吗?寻找同样的东西。你最后做了什么,为什么? 【参考方案1】:更新:
读完 PipelineDB 页面后,我只想知道为什么需要比较这些不同的东西?
Druid 的安装和维护相当复杂,它需要几个外部依赖项(例如 zookeeper 和 hdfs/amazon,也必须维护)。
您可以以这个价格购买 druid 的主要功能:面向列的和分布式存储和处理。这也意味着开箱即用的水平可扩展性,并且它是完全自动的,您甚至不必考虑它。
所以如果你不需要它的分布式特性,我会说你根本不需要德鲁伊。
第一版:
我没有使用 pipelinedb 的经验(它是什么?谷歌没有显示任何内容,请分享一些链接),但我对德鲁伊有很多经验。所以我会考虑(除了[查询]速度和可扩展性):
-
摄取性能(每秒/分钟/小时/...可以有多少行
插入?)
摄取的 RAM 消耗(以目标速度摄取需要多少 RAM?)
压缩级别(一个需要多少磁盘空间
小时/天/月/...的数据?)
容错(当某些
的组件失败?这对我的业务至关重要?)
缓存(请记住)
【讨论】:
你用的是什么谷歌? pipelinedb 被很好地引用了。 pipelinedb.com 就在昨天,它显示了大量“购买此域”页面以上是关于比较 druid 和 pipelinedb的主要内容,如果未能解决你的问题,请参考以下文章