如何处理批次内不同实例中的不确定句子数量？

Posted 2023-03-12

技术标签:

【中文标题】如何处理批次内不同实例中的不确定句子数量？【英文标题】：how to deal with uncertain amount of sentences in different instances within a batch? 【发布时间】：2020-01-24 20:42:56 【问题描述】：

我遇到了编码问题。在我的数据集中，一个实例包含几个句子（不同实例中的数量不同）。它们不能连接起来作为一个单独的。如何使用 PyTorch 有效地处理此类数据？还是我必须一个一个地处理实例？

【问题讨论】：

【参考方案1】：

这是一个非常广泛的问题。不过，我可以想到两个不太复杂的解决方案。

使用虚拟句子填充实例并在学习实例表示时掩盖虚拟句子。您可以根据句子数量对实例进行分组以创建小批量以避免填充。但是，如果不是这种情况，请至少尝试将句子数量相似的实例分组，以尽量减少填充量。

您可以研究学习文档表示的现有实现，例如Hierarchical Attention Networks for Document Classification paper。

【讨论】：

以上是关于如何处理批次内不同实例中的不确定句子数量？的主要内容，如果未能解决你的问题，请参考以下文章

如何处理在运行时确定类型的数组的声明和分配？

Node.js：如何处理在字典中查找同名的不同城市？

从重采样到数据合成：如何处理机器学习中的不平衡分类问题？

Mercurial质疑如何处理不同的头脑

[转]如何处理机器学习中的不平衡类别

pytorch中如何处理RNN输入变长序列padding