TensorFlowOnSpark stuck

Posted 2022-06-21 fansy1990

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了TensorFlowOnSpark stuck相关的知识，希望对你有一定的参考价值。

问题描述：

在使用TensorFlowOnSpark做测试的时候，发现任务，老是卡着并没有实际的运行。

解决方法：

1. 由于我使用的是自编译的TensorFlow，当时编译的时候有一个enable HDFS，默认是false，所以再次编译了一遍，把对应的HDFS enable设置为了true；

2. 没有严格参考官网：

官网上面在使用spark-submit提交的时候，添加了--conf参数，而我以为这个是没有问题的，所以就没加，所以就一直卡着，添加后就可以了；

3. 是否executor num的个数要设置和集群子节点个数一致？

经过试验，发现不是，num executor的个数可以设置少于集群子节点的个数；

4. 在试验的时候，同样的设置，提交使用不同的executor-memory 及spark.yarn.executor.memoryOverhead的组合会出现诸如：

Container killed by YARN for exceeding memory limits. 52.6 GB of 50 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead

的错误，那就需要调整相应的设置，具体可以参考：https://blogs.msdn.microsoft.com/shanyu/2014/07/31/hadoop-yarn-memory-settings-in-hdinsight/ ，讲的还是很详细的；

5. 如果想使用Spark On YARN的方式调用TensorFlowOnSpark ，并且使用Java调用的话，可以参考：https://github.com/fansy1990/tensorflowonspark_usejava

分享，成长，快乐

脚踏实地，专注

转载请注明blog地址：http://blog.csdn.net/fansy1990

以上是关于TensorFlowOnSpark stuck的主要内容，如果未能解决你的问题，请参考以下文章