TensorFlowOnSpark stuck

Posted fansy1990

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TensorFlowOnSpark stuck相关的知识,希望对你有一定的参考价值。

问题描述:

在使用TensorFlowOnSpark做测试的时候,发现任务,老是卡着并没有实际的运行。

解决方法:

1. 由于我使用的是自编译的TensorFlow,当时编译的时候有一个enable HDFS,默认是false,所以再次编译了一遍,把对应的HDFS enable设置为了true;

2. 没有严格参考官网:

   官网上面在使用spark-submit提交的时候,添加了--conf参数,而我以为这个是没有问题的,所以就没加,所以就一直卡着,添加后就可以了;

3. 是否executor num的个数要设置和集群子节点个数 一致?

  经过试验,发现不是,num executor的个数可以设置少于集群子节点的个数;

4. 在试验的时候,同样的设置,提交使用不同的executor-memory 及spark.yarn.executor.memoryOverhead的组合会出现诸如:

Container killed by YARN for exceeding memory limits. 52.6 GB of 50 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead

的错误,那就需要调整相应的设置,具体可以参考:https://blogs.msdn.microsoft.com/shanyu/2014/07/31/hadoop-yarn-memory-settings-in-hdinsight/ , 讲的还是很详细的;


5. 如果想使用Spark On YARN的方式调用TensorFlowOnSpark ,并且使用Java调用的话,可以参考:https://github.com/fansy1990/tensorflowonspark_usejava

分享,成长,快乐


脚踏实地,专注


转载请注明blog地址:http://blog.csdn.net/fansy1990


以上是关于TensorFlowOnSpark stuck的主要内容,如果未能解决你的问题,请参考以下文章

Centos6安装TensorFlow及TensorFlowOnSpark

开源 | 雅虎BigML团队开源大数据分布式深度学习框架TensorFlowOnSpark

如何安装spark&tensorflowonspark

如何安装Spark amp;TensorflowOnSpark

ThreadPool has stuck threads

1112 Stucked Keyboard (20分)