Apache Apex 是依赖 HDFS 还是有自己的文件系统?

Posted

技术标签:

【中文标题】Apache Apex 是依赖 HDFS 还是有自己的文件系统?【英文标题】:Does Apache Apex rely on HDFS or does it have its own file system? 【发布时间】:2016-04-12 06:58:09 【问题描述】:

我了解 Apache Apex 在 Hadoop 和 YARN 上运行。它是否利用 HDFS 进行持久性和复制以防止数据丢失?还是有自己的?

【问题讨论】:

【参考方案1】:

Apache Apex 使用操作员状态检查点来实现容错。 Apex 使用 HDFS 编写这些检查点以进行恢复。但是,用于检查点的存储是可配置的。 Apex 还实现了checkpoint to Apache Geode。 Apex 还使用 HDFS 上传工件,例如包含应用程序 jar、其依赖项和配置等的应用程序包,这些是启动应用程序所需的。

【讨论】:

【参考方案2】:

Apache Apex 没有自己的文件系统。默认情况下,使用 Apex 编写的流应用程序将使用 HDFS 进行检查点、持久性和保存应用程序特定数据。

【讨论】:

以上是关于Apache Apex 是依赖 HDFS 还是有自己的文件系统?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Apache Apex 将数据从 DB2 批量摄取到 Vertica

Apache Apex 与 Apache Flink

Apache Apex 如何处理背压?

无法启动 apache apex cli

Apache Apex 中的操作员生命周期是啥?

创建新的 Apache Apex 项目时出现 Maven 原型错误