37-分布式tensorflow
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了37-分布式tensorflow相关的知识,希望对你有一定的参考价值。
参考技术A 分布式tensorflow是由高性能的gRPC框架作为支持的。
这是一个通信框架gRPC(google remote prcedure call),是一个高性能、跨平台的RPC框架。RPC协议,即远程过程调用协议,是指通过网络从远程计算机程序上请求服务。相当于是对底层协议的封装,解决传输错误,同步的问题
分布式原理:
计算速度提高,设备多
ps:GPU的运算速度比CPU快
怎么进行分布式—分布式的架构
服务器:一个服务其上通常有多个GPU
服务器可分为参数服务器和工作服务器。参数服务器专门负责更新参数,保存参数;工作服务器的主要功能就是进行计算
worker节点(工作服务器)中需要一个主节点来进行会话初始化,创建文件等操作,其他节点等待进行计算。
分布式更新参数的模式
tensorflow中设备命名的规则
api
1、创建一个tf.train.ClusterSpec,用于对集群中的所有任务进行描述,该描述内容对所有任务应该是相同的
2、创建一个tf.train.Server,用于创建一个任务(ps,worker),并运行相应作业上的计算任务。
创建集群
创建服务
工作节点指定设备运行
流程
注意:tf.Session()不支持分布式会话。应使用分布式会话函数
案例:
注意:不知道为什么,在本次计算中出现了计算无法停止的问题。。。
以上是关于37-分布式tensorflow的主要内容,如果未能解决你的问题,请参考以下文章