tensorflow py_func 很方便,但让我的训练步骤非常缓慢。

Posted

技术标签:

【中文标题】tensorflow py_func 很方便,但让我的训练步骤非常缓慢。【英文标题】:tensorflow py_func is handy but makes my training step very slow. 【发布时间】:2017-08-13 04:00:00 【问题描述】:

我在使用 tensorflow 函数 py_func 时遇到了一些效率问题。

上下文

在我的项目中,我有一批大小为[? max_items m] 的张量input_features。第一个维度设置为?,因为它是一个动态形状(批处理是为自定义 tensorflow 阅读器读取的,并使用 tf.train.shuffle_batch_join() 进行混洗)。第二个维度对应一个上限(我的例子可以取的最大项目数),第三个维度对应于特征维度空间。我还有一个张量num_items,它的尺寸为batch size(所以形状是(?,)),表示示例中的项目数,其他设置为0(以numpy写作风格input_feature[k, num_items[k]:, :] = 0

问题

我的工作流程需要一些自定义 python 操作(尤其是处理索引,我需要或实例对一些示例执行集群操作),并且我使用了一些包装在 py_func 函数中的 numpy 函数。这很好用,但是训练变得非常非常慢(比没有这个 py_func 的模型慢大约 50 倍),并且函数本身并不耗时。

问题

1 - 这个计算时间增加正常吗?包裹在 py_func 中的函数给了我一个新的张量,它在这个过程中被进一步放大。它解释了计算时间吗? (我的意思是梯度可能更难用这种函数计算)。

2 - 我正在尝试修改我的处理并避免使用py_func 函数。但是,使用 numpy 索引(尤其是我的数据格式)提取数据非常方便,而且我很难以 TF 方式传递它。例如,如果我有一个张量 t1 与 shape[-1, n_max, m] (第一维是动态的 batch_size)和 t2 与形状 [-1,2] 包含整数。有没有一种简单的方法可以在 tensorflow 中执行平均运算,这将导致 t_mean_chunk 形状为 (-1, m) 其中(在一个 numpy 公式中): t_mean_chunk[i,:] = np.mean(t1[i, t2[i,0]:t2[i,1], :], axis=0) ? 这是(以及其他操作)我在包装函数中所做的事情。

【问题讨论】:

假设pyfunc 的运行方式与np.vectorize 非常相似,我并不惊讶它会减慢速度。 tensorflow 使用了大量自己编译的代码。但是在混合使用这个 Python 函数时,它必须求助于某种解释迭代。这要慢得多。 【参考方案1】:

如果没有确切的 py_func,问题 1 很难回答,但正如 hpaulj 在他的评论中提到的,它会减慢速度也就不足为奇了。作为最坏情况的后备方案,tf.scantf.while_loopTensorArray 可能会更快一些。但是,最好的情况是使用 TensorFlow 运算的矢量化解决方案,我认为在这种情况下是可能的。

至于问题 2,我不确定它是否算简单,但这里有一个计算索引表达式的函数:

import tensorflow as tf

def range_mean(index_ranges, values):
  """Take the mean of `values` along ranges specified by `index_ranges`.

  return[i, ...] = tf.reduce_mean(
    values[i, index_ranges[i, 0]:index_ranges[i, 1], ...], axis=0)

  Args:
    index_ranges: An integer Tensor with shape [N x 2]
    values: A Tensor with shape [N x M x ...].
  Returns:
    A Tensor with shape [N x ...] containing the means of `values` having
    indices in the ranges specified.
  """
  m_indices = tf.range(tf.shape(values)[1])[None]
  # Determine which parts of `values` will be in the result
  selected = tf.logical_and(tf.greater_equal(m_indices, index_ranges[:, :1]),
                            tf.less(m_indices, index_ranges[:, 1:]))
  n_indices = tf.tile(tf.range(tf.shape(values)[0])[..., None],
                      [1, tf.shape(values)[1]])
  segments = tf.where(selected, n_indices + 1, tf.zeros_like(n_indices))
  # Throw out segment 0, since that's our "not included" segment
  segment_sums = tf.unsorted_segment_sum(
      data=values,
      segment_ids=segments, 
      num_segments=tf.shape(values)[0] + 1)[1:]
  divisor = tf.cast(index_ranges[:, 1] - index_ranges[:, 0],
                    dtype=values.dtype)
  # Pad the shape of `divisor` so that it broadcasts against `segment_sums`.
  divisor_shape_padded = tf.reshape(
      divisor,
      tf.concat([tf.shape(divisor), 
                 tf.ones([tf.rank(values) - 2], dtype=tf.int32)], axis=0))
  return segment_sums / divisor_shape_padded

示例用法:

index_range_tensor = tf.constant([[2, 4], [1, 6], [0, 3], [0, 9]])
values_tensor = tf.reshape(tf.range(4 * 10 * 5, dtype=tf.float32), [4, 10, 5])
with tf.Session():
  tf_result = range_mean(index_range_tensor, values_tensor).eval()
  index_range_np = index_range_tensor.eval()
  values_np = values_tensor.eval()

for i in range(values_np.shape[0]):
  print("Slice : ".format(i),
        tf_result[i],
        numpy.mean(values_np[i, index_range_np[i, 0]:index_range_np[i, 1], :],
                   axis=0))

打印:

Slice 0:  [ 12.5  13.5  14.5  15.5  16.5] [ 12.5  13.5  14.5  15.5  16.5]
Slice 1:  [ 65.  66.  67.  68.  69.] [ 65.  66.  67.  68.  69.]
Slice 2:  [ 105.  106.  107.  108.  109.] [ 105.  106.  107.  108.  109.]
Slice 3:  [ 170.  171.  172.  173.  174.] [ 170.  171.  172.  173.  174.]

【讨论】:

感谢您的回答!你的例子很棒,向我展示了我想做的事情。

以上是关于tensorflow py_func 很方便,但让我的训练步骤非常缓慢。的主要内容,如果未能解决你的问题,请参考以下文章

如何解决 AttributeError:模块 'tensorflow.compat.v2' 没有属性 'py_func'

TensorFlow - tf.data.Dataset读取大型HDF5文件

如何将 py_func 与返回 dict 的函数一起使用

如何在 keras lambda 层中使用 tf.py_func 来包装 python 代码。 ValueError:应定义 Dense 输入的最后一个维度。没有找到

Tensorflow[LSTM]

TensorFlow的 卷积层