如何使用pytorch同时迭代两个数据加载器?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用pytorch同时迭代两个数据加载器?相关的知识,希望对你有一定的参考价值。

我正在尝试实现一个接收两个图像的Siamese网络。我加载这些图像并创建两个单独的数据加载器。

在我的循环中,我想同时浏览两个数据加载器,以便我可以在两个图像上训练网络。

for i, data in enumerate(zip(dataloaders1, dataloaders2)):

    # get the inputs
    inputs1 = data[0][0].cuda(async=True);
    labels1 = data[0][1].cuda(async=True);

    inputs2 = data[1][0].cuda(async=True);
    labels2 = data[1][1].cuda(async=True);

    labels1 = labels1.view(batchSize,1)
    labels2 = labels2.view(batchSize,1)

    # zero the parameter gradients
    optimizer.zero_grad()

    # forward + backward + optimize
    outputs1 = alexnet(inputs1)
    outputs2 = alexnet(inputs2)

dataloader的返回值是一个元组。但是,当我尝试使用zip迭代它们时,我收到以下错误:

OSError: [Errno 24] Too many open files
Exception NameError: "global name 'FileNotFoundError' is not defined" in <bound method _DataLoaderIter.__del__ of <torch.utils.data.dataloader._DataLoaderIter object at 0x7f2d3c00c190>> ignored                           

不应该对所有可迭代项目进行压缩吗?但似乎在这里我无法在数据加载器上使用它。

还有其他方法来追求这个吗?或者我是否正确地接近了Siamese网络的实施?

答案

我发现你正在努力制作正确的数据库功能。我会做:

class Siamese(Dataset):


def __init__(self, transform=None):

   #init data here

def __len__(self):
    return   #length of the data

def __getitem__(self, idx):
    #get images and labels here 
    #returned images must be tensor
    #labels should be int 
    return img1, img2 , label1, label2 
另一答案

完成@ ManojAcharya的回答:

你得到的错误既不是来自zip()也不是来自DataLoader()。 Python试图告诉你它找不到你要求的数据文件之一(异常跟踪中的c.f.FileNotFoundError),可能在你的Dataset中。

下面是一起使用DataLoaderzip的工作示例。请注意,如果要对数据进行随机播放,则很难保持2个数据集之间的对应关系。这证明了@ ManojAcharya的解决方案。

import torch
from torch.utils.data import DataLoader, Dataset

class DummyDataset(Dataset):
    """
    Dataset of numbers in [a,b] inclusive
    """

    def __init__(self, a=0, b=100):
        super(DummyDataset, self).__init__()
        self.a = a
        self.b = b

    def __len__(self):
        return self.b - self.a + 1

    def __getitem__(self, index):
        return index, "label_{}".format(index)

dataloaders1 = DataLoader(DummyDataset(0, 9), batch_size=2, shuffle=True)
dataloaders2 = DataLoader(DummyDataset(0, 9), batch_size=2, shuffle=True)

for i, data in enumerate(zip(dataloaders1, dataloaders2)):
    print(data)
# ([tensor([ 4,  7]), ('label_4', 'label_7')], [tensor([ 8,  5]), ('label_8', 'label_5')])
# ([tensor([ 1,  9]), ('label_1', 'label_9')], [tensor([ 6,  9]), ('label_6', 'label_9')])
# ([tensor([ 6,  5]), ('label_6', 'label_5')], [tensor([ 0,  4]), ('label_0', 'label_4')])
# ([tensor([ 8,  2]), ('label_8', 'label_2')], [tensor([ 2,  7]), ('label_2', 'label_7')])
# ([tensor([ 0,  3]), ('label_0', 'label_3')], [tensor([ 3,  1]), ('label_3', 'label_1')])
另一答案

当我们有不同长度的数据集时,添加@ Aldream的解决方案,如果我们想要在同一时期传递它们,那么我们可以使用来自cycle()(一个Python标准库)的itertools。使用@Aldrem的代码片段,更新后的代码如下所示:

from torch.utils.data import DataLoader, Dataset
from itertools import cycle

class DummyDataset(Dataset):
    """
    Dataset of numbers in [a,b] inclusive
    """

    def __init__(self, a=0, b=100):
        super(DummyDataset, self).__init__()
        self.a = a
        self.b = b

    def __len__(self):
        return self.b - self.a + 1

    def __getitem__(self, index):
        return index

dataloaders1 = DataLoader(DummyDataset(0, 100), batch_size=10, shuffle=True)
dataloaders2 = DataLoader(DummyDataset(0, 200), batch_size=10, shuffle=True)
num_epochs = 10

for epoch in num_epochs:
    for i, data in enumerate(zip(cycle(dataloaders1), dataloaders2)):
        print(data)

只有zip(),当长度等于最小数据集(此处为100)的长度时,迭代器将耗尽。但是通过使用cycle(),我们将再次重复最小的数据集,除非我们的迭代器查看来自最大数据集(此处为200)的所有样本。

附:人们总是可以说这种方法可能不需要实现收敛,只要随机抽样,但采用这种方法,评估可能更容易。

以上是关于如何使用pytorch同时迭代两个数据加载器?的主要内容,如果未能解决你的问题,请参考以下文章

如何从 pytorch 数据加载器中获取批迭代的总数?

Pytorch数据加载

如何将 numpy 数组列表加载到 pytorch 数据集加载器?

如何在 PYTorch 中定义数据加载器

PyTorch学习系列——加载数据2

PyTorch学习系列——加载数据2