如何处理批次内不同实例中的不确定句子数量?

Posted

技术标签:

【中文标题】如何处理批次内不同实例中的不确定句子数量?【英文标题】:how to deal with uncertain amount of sentences in different instances within a batch? 【发布时间】:2020-01-24 20:42:56 【问题描述】:

我遇到了编码问题。在我的数据集中,一个实例包含几个句子(不同实例中的数量不同)。它们不能连接起来作为一个单独的。如何使用 PyTorch 有效地处理此类数据?还是我必须一个一个地处理实例?

【问题讨论】:

【参考方案1】:

这是一个非常广泛的问题。不过,我可以想到两个不太复杂的解决方案。

    使用虚拟句子填充实例并在学习实例表示时掩盖虚拟句子。 您可以根据句子数量对实例进行分组以创建小批量以避免填充。但是,如果不是这种情况,请至少尝试将句子数量相似的实例分组,以尽量减少填充量。

您可以研究学习文档表示的现有实现,例如Hierarchical Attention Networks for Document Classification paper。

【讨论】:

以上是关于如何处理批次内不同实例中的不确定句子数量?的主要内容,如果未能解决你的问题,请参考以下文章

如何处理在运行时确定类型的数组的声明和分配?

Node.js:如何处理在字典中查找同名的不同城市?

从重采样到数据合成:如何处理机器学习中的不平衡分类问题?

Mercurial质疑如何处理不同的头脑

[转]如何处理机器学习中的不平衡类别

pytorch中如何处理RNN输入变长序列padding