TensorFlowOnSpark stuck
Posted fansy1990
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TensorFlowOnSpark stuck相关的知识,希望对你有一定的参考价值。
问题描述:
在使用TensorFlowOnSpark做测试的时候,发现任务,老是卡着并没有实际的运行。
解决方法:
1. 由于我使用的是自编译的TensorFlow,当时编译的时候有一个enable HDFS,默认是false,所以再次编译了一遍,把对应的HDFS enable设置为了true;
2. 没有严格参考官网:
官网上面在使用spark-submit提交的时候,添加了--conf参数,而我以为这个是没有问题的,所以就没加,所以就一直卡着,添加后就可以了;
3. 是否executor num的个数要设置和集群子节点个数 一致?
经过试验,发现不是,num executor的个数可以设置少于集群子节点的个数;
4. 在试验的时候,同样的设置,提交使用不同的executor-memory 及spark.yarn.executor.memoryOverhead的组合会出现诸如:
Container killed by YARN for exceeding memory limits. 52.6 GB of 50 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead
的错误,那就需要调整相应的设置,具体可以参考:https://blogs.msdn.microsoft.com/shanyu/2014/07/31/hadoop-yarn-memory-settings-in-hdinsight/ , 讲的还是很详细的;
5. 如果想使用Spark On YARN的方式调用TensorFlowOnSpark ,并且使用Java调用的话,可以参考:https://github.com/fansy1990/tensorflowonspark_usejava
分享,成长,快乐
脚踏实地,专注
转载请注明blog地址:http://blog.csdn.net/fansy1990
以上是关于TensorFlowOnSpark stuck的主要内容,如果未能解决你的问题,请参考以下文章
Centos6安装TensorFlow及TensorFlowOnSpark
开源 | 雅虎BigML团队开源大数据分布式深度学习框架TensorFlowOnSpark