加载器的无效数据类型 - Pytorch Lightning DataModule

Posted 2023-03-16

技术标签:

【中文标题】加载器的无效数据类型 - Pytorch Lightning DataModule【英文标题】：Invalid Datatype for loaders - Pytorch Lightning DataModule 【发布时间】：2022-01-21 02:30:03 【问题描述】：

我正在尝试进行文本摘要练习，并且我已经训练和测试了包含两列文本和摘要（标签）的数据集。我正在使用 T5、Pytorch 和 Lightning 包装器，并且我有一个 Pytorch 数据集类，我可以确认它工作正常，并将以下内容作为文本字典返回，并将 id、标签和掩码作为张量返回。

return dict(
    text=text,
    summary = data_row['summary'],
    text_input_ids = text_encoding['input_ids'].flatten(),
    text_attention_mask = text_encoding['attention_mask'].flatten(),
    labels = labels.flatten(),
    labels_attention_mask = summary_encoding['attention_mask'].flatten()
)

然后我有一个 Lightning 数据模块类，它将数据帧转换为 PyTorch 数据集，并将它们适合数据加载器，返回训练、验证和测试数据加载器

class TextSummaryDataModule(pl.LightningModule):
  def __init__(
      self, 
      train_df: pd.DataFrame, 
      test_df: pd.DataFrame, 
      tokenizer: T5Tokenizer, 
      batch_size: int=8, 
      text_max_token_len: int=512, 
      summary_max_token_len: int=128
    ):
    
      super().__init__()
      
      self.train_df = train_df
      self.test_df = test_df

      self.tokenizer = tokenizer
      self.batch_size = batch_size
      self.text_max_token_len = text_max_token_len
      self.summary_max_token_len = summary_max_token_len

  def setup(self):
    self.train_dataset = TextSummaryDataset(
        self.train_df,
        self.tokenizer,
        self.text_max_token_len,
        self.summary_max_token_len
    )

    self.test_dataset = TextSummaryDataset(
        self.test_df,
        self.tokenizer,
        self.text_max_token_len,
        self.summary_max_token_len
    )

  def train_dataloader(self):
    return DataLoader(
        self.train_dataset,
        batch_size = self.batch_size,
        shuffle=True,
        num_workers=2
    )

  def val_dataloader(self):
    return DataLoader(
        self.test_dataset,
        batch_size = self.batch_size,
        shuffle=False,
        num_workers=2
    )

  def test_dataloader(self):
    return DataLoader(
        self.test_dataset,
        batch_size = self.batch_size,
        shuffle=False,
        num_workers=2
    )

一切正常，直到我尝试执行模型并收到以下警告和错误

用户警告：您定义了一个验证步骤，但没有验证数据加载器。跳过验证循环 - 我已经在数据模块中明确定义并返回了它

加载程序的数据类型无效：TextSummaryDataModule - 我已确认我正在返回一个包含文本和摘要的标记、注意掩码和标签的字典

【问题讨论】：

【参考方案1】：

可耻的是我在这里使用了 pl.LightningModule 而不是 DataModule...

【讨论】：

以上是关于加载器的无效数据类型 - Pytorch Lightning DataModule的主要内容，如果未能解决你的问题，请参考以下文章