37-分布式tensorflow

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了37-分布式tensorflow相关的知识,希望对你有一定的参考价值。

参考技术A

分布式tensorflow是由高性能的gRPC框架作为支持的。
这是一个通信框架gRPC(google remote prcedure call),是一个高性能、跨平台的RPC框架。RPC协议,即远程过程调用协议,是指通过网络从远程计算机程序上请求服务。相当于是对底层协议的封装,解决传输错误,同步的问题

分布式原理:

计算速度提高,设备多

ps:GPU的运算速度比CPU快

怎么进行分布式—分布式的架构

服务器:一个服务其上通常有多个GPU

服务器可分为参数服务器和工作服务器。参数服务器专门负责更新参数,保存参数;工作服务器的主要功能就是进行计算

worker节点(工作服务器)中需要一个主节点来进行会话初始化,创建文件等操作,其他节点等待进行计算。

分布式更新参数的模式

tensorflow中设备命名的规则

api

1、创建一个tf.train.ClusterSpec,用于对集群中的所有任务进行描述,该描述内容对所有任务应该是相同的

2、创建一个tf.train.Server,用于创建一个任务(ps,worker),并运行相应作业上的计算任务。

创建集群

创建服务

工作节点指定设备运行

流程

注意:tf.Session()不支持分布式会话。应使用分布式会话函数

案例:

注意:不知道为什么,在本次计算中出现了计算无法停止的问题。。。

以上是关于37-分布式tensorflow的主要内容,如果未能解决你的问题,请参考以下文章

Redis学习笔记37——数据分布优化:如何应对数据倾斜

Redis学习笔记37——数据分布优化:如何应对数据倾斜

Redis学习笔记37——数据分布优化:如何应对数据倾斜

挑战阿里社招百万年薪,吃透这37个经典面试题,offer能拿到手软

开源周刊第37期:React Native 简单教程

死磕面试 - Dubbo基础知识37问(必须掌握)