论文泛读76将来自bert的提取信息和多种嵌入方法与深度神经网络集成在一起,以进行幽默检测
Posted 及时行樂_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读76将来自bert的提取信息和多种嵌入方法与深度神经网络集成在一起,以进行幽默检测相关的知识,希望对你有一定的参考价值。
贴一下汇总贴:论文阅读记录
一、摘要
在过去的几年中,从句子中进行幽默检测一直是一项有趣且具有挑战性的任务。为了强调幽默检测,大多数研究都是使用传统的嵌入方法进行的,例如Word2Vec或Glove。最近,BERT句子嵌入也已用于此任务。在本文中,我们提出了一个从新闻头条摘录的短文本中用于幽默检测的框架。我们提出的框架(IBEN)试图通过使用BERT的不同层从书面文本中提取信息。经过几次试验,将权重分配给BERT模型的不同层。然后将提取的信息作为嵌入矩阵发送到Bi-GRU神经网络。我们利用了一些外部嵌入模型的属性。我们的神经网络中的多核卷积也被用来提取更高级别的句子表示。这个框架在幽默检测的任务上表现很好。
二、结论
在这篇文章中,我们提出了一个框架(IBEN)来检测书面句子的滑稽程度。在我们的架构中,我们使用了深度学习技术的组合,如多核卷积、双向GRU和BERT。BERT和外部嵌入与双GRU和美国有线电视新闻网模型的结合提供了对句子的深刻理解。结果显示了我们框架的性能。我们的统一框架的主要贡献是有效地学习上下文信息,这反过来提高了幽默检测性能。尽管我们获得了有竞争力的结果,但我们的方法仍有很大的改进空间。在未来,我们有一个计划来关注特定的幽默形式,如不协调、讽刺、讽刺、双关语和优越感。这可能有助于更好地理解不同的建模策略如何识别幽默的不同根源。
三、model
利用BERT层进行单词嵌入,嵌入矩阵然后被输入到我们的神经网络的嵌入层,多核卷积滤波器用于从附加嵌入中移除更高级的特征序列。在收到这些模块的预测后,结果被混合并用于确定有趣的程度。
-
Bert特征提取
-
Embedding
-
Bi-GRU
-
Multi-Kernel Convolution (多核卷积)
-
Humour Prediction and Model Training (幽默预测与模型训练)
损失函数: m s e = ∑ i = 1 n ∣ y i − y ^ i ∣ mse=\\sum_{i=1}^n|y_i-\\hat y_i| mse=i=1∑n∣yi−y^i∣
PS:一些后话
之前复现过一个中文幽默的小项目,如果后面对这个方向感兴趣,可以与这个结合试试~
以上是关于论文泛读76将来自bert的提取信息和多种嵌入方法与深度神经网络集成在一起,以进行幽默检测的主要内容,如果未能解决你的问题,请参考以下文章
论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射
论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射