如何使用 HDFS 在 Hadoop 上运行 TensorFlow

Posted 2021-04-13 TensorFlow

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何使用 HDFS 在 Hadoop 上运行 TensorFlow相关的知识，希望对你有一定的参考价值。

本文将为大家介绍如何使用 HDFS 在 Hadoop 上运行 TensorFlow。您需要知道如何。

HDFS

要在 TensorFlow 中使用 HDFS，请使用 HDFS 路径来读写数据，例如：

filename_queue = tf.train.string_input_producer([
"hdfs://namenode:8020/path/to/file1.csv",
"hdfs://namenode:8020/path/to/file2.csv",
])

要使用 HDFS 配置文件中指定的 namenode，请将文件前缀更改为 HDFS://default/。

设置以下环境变量：

JAVA_HOME — Java 安装的路径
HADOOP_HDFS_HOME — HDFS 安装路径。如果 libhdfs.so 在 LD_LIBRARY_PATH 中可用，则该变量是可选的。这也可以使用以下方式设置：

source ${HADOOP_HOME}/libexec/hadoop-config.sh

LD_LIBRARY_PATH — 如果您的 Hadoop 发行版未在 ${HADOOP_HDFS_HOME} /lib/native 中安装 libhdfs.so，请包含 libjvm.so 的路径以及 libhdfs.so 的（可选）路径。在 Linux 上：

export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:${JAVA_HOME}/jre/lib/amd64/server

CLASSPATH — 在运行 TensorFlow 之前，必须将 Hadoop jar 添加到类路径中。仅使用 ${hadoop op_home}/libexec/hadoop-config.sh 设置类路径是不够的。必须扩展 Globs，如 libhdfs 文档所述：

CLASSPATH=$(${HADOOP_HOME}/bin/hadoop classpath --glob) python your_script.py

如果 Hadoop 集群处于安全模式，则设置以下环境变量：

export KRB5CCNAME=/tmp/krb5cc_10002

如果使用，则所有工作人员必须安装 Hadoop 并设置环境变量。

更多 AI 相关阅读：

以上是关于如何使用 HDFS 在 Hadoop 上运行 TensorFlow的主要内容，如果未能解决你的问题，请参考以下文章