Pytorch如何获得两次失落函数的梯度

Question

这是我正在尝试实现的：

像往常一样，我们根据F(X)计算损失。但我们也定义了“对抗性损失”，这是基于F(X + e)的损失。 e定义为dF(X)/dX乘以某个常数。损失和对抗性损失都会因总损失而被反向传播。

在tensorflow中，这部分（获得dF(X)/dX）可以编码如下：

  grad, = tf.gradients( loss, X )
  grad = tf.stop_gradient(grad)
  e = constant * grad

下面是我的pytorch代码：

class DocReaderModel(object):
    def __init__(self, embedding=None, state_dict=None):
        self.train_loss = AverageMeter()
        self.embedding = embedding
        self.network = DNetwork(opt, embedding)
        self.optimizer = optim.SGD(parameters)

    def adversarial_loss(self, batch, loss, embedding, y):
        self.optimizer.zero_grad()
        loss.backward(retain_graph=True)
        grad = embedding.grad
        grad.detach_()

        perturb = F.normalize(grad, p=2)* 0.5
        self.optimizer.zero_grad()
        adv_embedding = embedding + perturb
        network_temp = DNetwork(self.opt, adv_embedding) # This is how to get F(X)
        network_temp.training = False
        network_temp.cuda()
        start, end, _ = network_temp(batch) # This is how to get F(X)
        del network_temp # I even deleted this instance.
        return F.cross_entropy(start, y[0]) + F.cross_entropy(end, y[1])

    def update(self, batch):
        self.network.train()
        start, end, pred = self.network(batch)
        loss = F.cross_entropy(start, y[0]) + F.cross_entropy(end, y[1])
        loss_adv = self.adversarial_loss(batch, loss, self.network.lexicon_encoder.embedding.weight, y) 
        loss_total = loss + loss_adv 

        self.optimizer.zero_grad()
        loss_total.backward()
        self.optimizer.step()

我有几个问题：

1）我用grad.detach_（）替换了tf.stop_gradient。它是否正确？

2）我得到了"RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time."所以我在retain_graph=True添加了loss.backward。那个特定的错误消失了。但是现在我在几个纪元（RuntimeError: cuda runtime error (2) : out of memory at /opt/conda/conda-bld/pytorch_1525909934016/work/aten/src/THC/generic/THCStorage.cu:58）之后出现了内存错误。我怀疑我不必要地保留图表。

有人能让我知道pytorch的最佳实践吗？任何提示/甚至短评都将受到高度赞赏。

Answer 1

另一答案