使用 tf.data.dataset 为序列模型创建数据生成器
Posted
技术标签:
【中文标题】使用 tf.data.dataset 为序列模型创建数据生成器【英文标题】:Create data generator with tf.data.dataset for sequence models 【发布时间】:2020-12-18 15:30:08 【问题描述】:我有一个包含 RGB 图像的图像数据集:img1.png、img2.png ... img250.png。我从每个图像中提取了 100 个大小为 [64,64,3] 的小块。所以,我现在有像 img1_1.png, img1_2.png ...img1_100.png, img2_1.png, img2_2.png, ... img2_100.png, img3_1, .....
我想使用 tf.data.dataset.from_tensor_slices 创建一个数据生成器,以将每个图像的所有补丁传递给 RNN 模型。所以,我希望生成器创建这样的输出:[batch_size, 100, 64, 64, 3]
我该怎么做?
【问题讨论】:
你的意思是格式(batch_size, 64, 64, 3)吗?如果不是,batch_size 表示什么? 不,我需要格式(batch_size、sequence_len、64、64、3)。 batch_size 是通过序列模型的批次数(例如 batch_size = 20)。 sequence_len也是每次迭代通过RNN模型的sequence patch的数量,我模型中的sequence_len是100。 【参考方案1】:代码:
# generating data
x = tf.constant(np.random.randint(256, size =(250,64, 64, 3)), dtype = tf.int32)
# Creating a dataset with sequence length
dataset = tf.data.Dataset.from_tensor_slices(x).batch(100, drop_remainder= True)
for i in dataset:
print(i.shape)
输出:
(100, 64, 64, 3)
(100, 64, 64, 3)
确保drop_remainders = True
最后,创建所需长度的批量大小。
# creating dataset with batch_size
dataset = dataset.batch(32)
for i in dataset:
print(i.shape)
输出:
(2, 100, 64, 64, 3)
如果您的数据大小为 (250,100,64, 64, 3):
dataset = tf.data.Dataset.from_tensor_slices(x).batch(32)
for i in dataset:
print(i.shape)
输出:
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(26, 100, 64, 64, 3)
【讨论】:
以上是关于使用 tf.data.dataset 为序列模型创建数据生成器的主要内容,如果未能解决你的问题,请参考以下文章
如何在 tf.data.Dataset 对象上使用序列/生成器将部分数据放入内存?
tf.data.Dataset.padded_batch 以不同的方式填充每个功能
tf.data.Dataset:不能为给定的输入类型指定 `batch_size` 参数