有人让 Tensorflow 分布式培训笔记本工作吗?

Posted

技术标签:

【中文标题】有人让 Tensorflow 分布式培训笔记本工作吗?【英文标题】:Does anyone get the Tensorflow distributed training notebook to work? 【发布时间】:2019-09-18 21:16:18 【问题描述】:

当我运行这个从 Tensorflows 文档站点链接的笔记本时,

https://colab.research.google.com/github/tensorflow/docs/blob/r2.0rc/site/en/tutorials/distribute/training_loops.ipynb#scrollTo=7x7s5iYAYSGD

我收到以下错误:

模块“tensorflow._api.v1.nn”没有属性“compute_average_loss”

如果有人可以让它工作,您在 Google Colab 中使用什么设置? Python 3/2、GPU、Tensorflow 版本等

谢谢

【问题讨论】:

【参考方案1】:

github代码来自今年5月:

https://github.com/tensorflow/docs/commits/r2.0rc/site/en/tutorials/distribute/training_loops.ipynb

在 colab 加载 tf 1.14 时:

from __future__ import absolute_import, division, print_function, unicode_literals

# Import TensorFlow
import tensorflow as tf

# Helper libraries
import numpy as np
import os

print(tf.__version__)

1.14.0

所以最好的办法是使用 tf 2.0 运行程序。

希望对你有帮助:)

【讨论】:

更改为 TF 2.0 修复了缺少“compute_average_loss”函数的问题,但随后代码的其他部分会崩溃。第一个崩溃是优化器在 TF 2.0 中有不同的初始化函数,很容易修复。但随后代码在以下行崩溃: train_iterator = train_ds.make_initializable_iterator() with error: 'DistributedDataset' object has no attribute 'make_initializable_iterator' 该错误更难以修复,因为该功能似乎已在 TF 2.0 中删除。我想知道它是用哪个 TF 1.x 版本编写的 嗯,目前有以下版本:1.13.0rc1、1.13.0rc2、1.13.1、1.13.2、1.14.0rc0、1.14.0rc1、1.14.0、1.15.0rc0、1.15 .0rc1,我建议你跳过你已经尝试过的那些尝试列表的末尾

以上是关于有人让 Tensorflow 分布式培训笔记本工作吗?的主要内容,如果未能解决你的问题,请参考以下文章

培训批次:哪种Tensorflow方法是正确的?

学习笔记TF061:分布式TensorFlow,分布式原理最佳实践

扎克伯格是如何让员工学会高效工作的?

CS224n笔记7 TensorFlow入门

中公的深度学习培训怎么样?有人了解吗?

深度学习笔记7:Tensorflow入门