如何处理批次内不同实例中的不确定句子数量?
Posted
技术标签:
【中文标题】如何处理批次内不同实例中的不确定句子数量?【英文标题】:how to deal with uncertain amount of sentences in different instances within a batch? 【发布时间】:2020-01-24 20:42:56 【问题描述】:我遇到了编码问题。在我的数据集中,一个实例包含几个句子(不同实例中的数量不同)。它们不能连接起来作为一个单独的。如何使用 PyTorch 有效地处理此类数据?还是我必须一个一个地处理实例?
【问题讨论】:
【参考方案1】:这是一个非常广泛的问题。不过,我可以想到两个不太复杂的解决方案。
-
使用虚拟句子填充实例并在学习实例表示时掩盖虚拟句子。
您可以根据句子数量对实例进行分组以创建小批量以避免填充。但是,如果不是这种情况,请至少尝试将句子数量相似的实例分组,以尽量减少填充量。
您可以研究学习文档表示的现有实现,例如Hierarchical Attention Networks for Document Classification paper。
【讨论】:
以上是关于如何处理批次内不同实例中的不确定句子数量?的主要内容,如果未能解决你的问题,请参考以下文章