阿帕奇脉冲星无限保留
Posted
技术标签:
【中文标题】阿帕奇脉冲星无限保留【英文标题】:Apache pulsar infinite retention 【发布时间】:2018-08-22 10:04:29 【问题描述】:在 Apache Pulsar 主题文档中,它说我们可以将主题时间保留策略设置为 -1 以实现基于无限时间的保留,无限保留的缺点是什么?我们可以使用 pulsar 作为消息存储,其中数据永远存在于主题和围绕它们构建事件溯源应用程序?
【问题讨论】:
缺点:无休止地添加硬盘。值得一读:confluent.io/blog/okay-store-data-apache-kafka——尽管思考——为什么当您可以将数据导出到为 设计的实际数据库/搜索引擎时,您会将数据存储在 Pulsar/Kafka 中查询/分析不仅仅是存储和消息传递 【参考方案1】:缺点是您的数据将永远增长。但是,由于底层存储(簿记员)的基于分段的架构,可以通过添加存储节点来添加更多空间(即,所有数据不必像其他一些系统那样放在一台机器上)。
基于分段的架构还使得将数据移动到大容量存储系统(s3 或其他东西)变得相当简单,同时仍然可以从 Pulsar 获得它。不过,目前这仍处于讨论的早期阶段。
【讨论】:
【参考方案2】:实际上,您可以而且应该使用Pulsar's Tiered Storage 选项将旧数据卸载到更具成本效益的存储,例如 S3、Google Blob 存储或 HDFS。与 Kafka 不同,Pulsar 将服务层与存储层分离,从而实现了这一点。在 Kafka 中,您将不得不“无休止地添加硬盘驱动器”和代理实例来存储它们。
【讨论】:
【参考方案3】:利用 Pulsar 的优势是更好的选择,因为它为您的数据存储提供了更多的组织。由于 Pulsar 的优势在于将分层存储与主题分开的存储层,因此我建议采用这条路线,因为您的数据将使我更安全且更易于访问。
【讨论】:
以上是关于阿帕奇脉冲星无限保留的主要内容,如果未能解决你的问题,请参考以下文章