Tensorflow 错误集锦
Posted lijianming180
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Tensorflow 错误集锦相关的知识,希望对你有一定的参考价值。
本文记录笔者在Tensorflow使用上的一些错误的集锦,方便后来人迅速查阅解决问题。
我是留白。
我是留白。
CreateSession still waiting for response from worker: /job:worker/replica:0/task:0
1 | 2018-12-05 22:18:24.565303: I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:222] Initialize GrpcChannelCache for job ps -> {0 -> localhost:3376} |
首先保证job_name,task_index,ps_hosts,worker_hosts
这四个参数都是正确的,考虑以下这种情况是不正确的:
在一个IP为192.168.1.100的机器上启动ps或worker进程:
1 | --job_name=worker |
因为该进程启动位置是192.168.1.100,但是运行参数中指定的task_index为1,对应的IP地址是ps_hosts或worker_hosts的第二项(第一项的task_index为0),也就是192.168.1.101,和进程本身所在机器的IP不一致。
另外一种情况也会导致该问题的发生,从TensorFlow-1.4开始,分布式会自动使用环境变量中的代理去连接,如果运行的节点之间不需要代理互连,那么将代理的环境变量移除即可,在脚本的开始位置添加代码:
注意这段代码必须写在import tensorflow as tf或者import moxing.tensorflow as mox之前
1 | import os |
— 摘自(https://bbs.huaweicloud.com/blogs/463145f7a1d111e89fc57ca23e93a89f)
ImportError: /lib64/libstdc++.so.6: version `CXXABI_1.3.9’ not found
1 | /home/experiment/huqiu/anaconda3/lib/python3.6/site-packages/h5py/__init__.py:36: FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`. |
系统的库文件较老,不含CXXABI_1.3.9,可将<Anaconda_PATH>/lib
加入LD_LIBRARY_PATH
中,像这样:
1 | export LD_LIBRARY_PATH=/home/../anaconda3/lib:$ |
如此,系统会先找到anaconda里面的lib,从而满足要求。
参考:Stackoverflow. 问题2
分布式Tensorflow, ps端运行出现tensorflow.python.framework.errors_impl.UnavailableError: OS Error
1 | 2018-12-07 15:40:05.167922: I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:222] Initialize GrpcChannelCache for job ps -> {0 -> localhost:3333} |
如上所示,运行多机分布式 tensorflow 的 parameter server 进程时,出现这个错误。
这里说道:
This has been troubling me for a while. I found out that the problem
is that GRPC uses the native “epoll” polling engine for communication.
Changing this to a portable polling engine solved this issue for me.
The way to do is to set the environment variable,
“GRPC_POLL_STRATEGY=poll” before running the tensorflow programs. This
solved this issue for me. For reference, see,
https://github.com/grpc/grpc/blob/master/doc/environment_variables.md.
按照其所属,在环境变量中新增一条:
1 | export GRPC_POLL_STRATEGY=poll |
成功解决问题。
参考文献
以上是关于Tensorflow 错误集锦的主要内容,如果未能解决你的问题,请参考以下文章
ubuntu16.0 anaconda3 安装tensorflow keras错误集锦
Android问题集锦之八:调用其他程序中的activity和Permission Denial: starting Intent 错误解决办法