比较 druid 和 pipelinedb

Posted 2023-02-23

技术标签:

【中文标题】比较 druid 和 pipelinedb【英文标题】：Comparing druid and pipelinedb 【发布时间】：2016-10-20 00:58:23 【问题描述】：

我一直致力于聚合流数据，我找到了 2 个工具来实现相同的目标。他们是 druid 和 pipelinedb。我已经了解了两者的实现和架构。但是无法找到对这两者进行基准测试的方法。是否有任何现有的基准测试已经完成？或者，如果我想自己进行基准测试，除了速度和可扩展性之外，我还需要考虑哪些因素。任何想法、链接和帮助都会非常可观。也请分享您自己使用 pipelinedb 和 druid 的经验

谢谢

【问题讨论】：

你找到什么了吗？寻找同样的东西。你最后做了什么，为什么？ 【参考方案1】：

更新：

读完 PipelineDB 页面后，我只想知道为什么需要比较这些不同的东西？

Druid 的安装和维护相当复杂，它需要几个外部依赖项（例如 zookeeper 和 hdfs/amazon，也必须维护）。

您可以以这个价格购买 druid 的主要功能：面向列的和分布式存储和处理。这也意味着开箱即用的水平可扩展性，并且它是完全自动的，您甚至不必考虑它。

所以如果你不需要它的分布式特性，我会说你根本不需要德鲁伊。

第一版：

我没有使用 pipelinedb 的经验（它是什么？谷歌没有显示任何内容，请分享一些链接），但我对德鲁伊有很多经验。所以我会考虑（除了[查询]速度和可扩展性）：

摄取性能（每秒/分钟/小时/...可以有多少行插入？）摄取的 RAM 消耗（以目标速度摄取需要多少 RAM？）压缩级别（一个需要多少磁盘空间小时/天/月/...的数据？）容错（当某些的组件失败？这对我的业务至关重要？）缓存（请记住）

【讨论】：