图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

Posted 专知

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP相关的知识,希望对你有一定的参考价值。



由于其在非欧几里德数据(如图或流形)建模方面的强大能力,图的深度学习技术(即图神经网络(GNNs))为解决具有挑战性的图相关NLP问题打开了一扇新的大门。将深度学习技术应用于自然语言处理的研究兴趣大增,并在许多自然语言处理任务中取得了相当大的成功,包括句子分类、语义角色标注和关系抽取等分类任务,以及机器翻译、问题生成和摘要等生成任务。尽管取得了这些成功,但面向NLP的图深度学习仍然面临许多挑战,包括自动将原始文本序列数据转换为高度图结构的数据,以及有效地建模复杂数据,这些数据涉及基于图的输入和其他高度结构的输出数据(如序列、树、树)之间的映射。以及节点和边中都有多种类型的图数据。本教程将涵盖在图形技术上运用深度学习的相关和有趣的主题,包括用于NLP的自动图构建、用于NLP的图表示学习、用于NLP的基于高级GNN模型(例如,graph2seq、graph2tree和graph2graph),以及GNN在各种NLP任务中的应用(例如,机器翻译、自然语言生成、信息提取和语义解析)。此外,还将包括动手演示会议,以帮助观众获得使用我们最近开发的开源库Graph4NLP应用GNN解决具有挑战性的NLP问题的实践经验。Graph4NLP是第一个为研究人员和实践者方便地使用GNN完成各种NLP任务的库。


https://github.com/dlg4nlp/dlg4nlp.github.io


图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP


图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

论文地址:
https://www.zhuanzhi.ai/paper/52da798653010faaae1b4255e85c3405

在解决自然语言处理(NLP)领域的各式问题时,深度学习(DL)已经成为当今的主导方法,尤其是当操作大规模文本语料时。传统的典型方法是将文本序列视为一组 token,比如 BoW(词袋)和 TF-IDF。随着近来词嵌入技术的成功,NLP 任务通常会将句子表示成 token 序列。因此,循环神经网络(RNN)和卷积神经网络(CNN)等常用深度学习技术已经在文本序列建模方面得到了广泛应用。

但是,对于大量各式各样的 NLP 问题,图结构才是最好的表示方式。举个例子,使用文本序列中的句子结构信息(比如依存关系和结构成本解析树),可通过整合特定于当前任务的知识来为原始序列数据提供增补。类似地,序列数据中的语义信息(比如摘要含义表示图和信息抽取图等语义解析图)也可用于增补原始序列数据。因此,这些图结构的数据可以编码实体 token 之间成对的关系,进而可用于学习信息更丰富的表示。

遗憾的是,在欧几里得数据(如图像)或序列数据(如文本)上具有颠覆性能力的深度学习技术却无法直接应用于图结构数据,这是因为图数据比较复杂,涉及到结构不规则和节点近邻数据大小不一致等情况。因此,这激起了图深度学习的研究浪潮,尤其是图神经网络的发展。

这波位于图深度学习和 NLP 交集处的研究浪潮已经影响到了大量 NLP 任务。在开发不同的 GNN 变体以及将它们用于许多 NLP 任务(包括分类任务、关系抽取和生成任务)上,研究社区兴趣浓厚并且已经取得了一些成功。尽管有这些成功的研究案例,但用于 NLP 的图深度学习研究仍旧面临着许多挑战:

  • 如何将原始文本序列数据自动转换成高度结构化的图结构数据?这是 NLP 领域的一个重大问题,因为大多数 NLP 任务使用的初始输入都是文本序列。为了将图神经网络用于 NLP 问题,一大关键步骤是基于文本序列来自动构建图,进而利用其底层的结构信息;

  • 如何确定该使用哪种合适的表示学习技术?图包括无向图、有向图、多关系图和异构图等不同形式,因此为了学习不同图结构数据的特有特征,使用针对具体情况专门设计的 GNN 是至关重要的;

  • 如何有效地建模复杂数据?这是一个重要的挑战,因为许多 NLP 任务都涉及到学习基于图的输入和其它高度结构化输出数据(比如序列、树以及不同类型的图数据)之间的映射关系。


这篇综述首次全面总结了用于自然语言处理的图神经网络。作者表示,这篇综述对机器学习和 NLP 社区而言都是符合时宜的。其中涵盖了广泛的相关主题,包括用于 NLP 的自动图构建、用于 NLP 的图表示学习、用于 NLP 的基于各种高级 GNN 的编码器 - 解码器模型(如 graph2seq、graph2tree 和 graph2graph)以及 GNN 在各种不同 NLP 任务中的应用。

在篇幅长达 127 页的论文中,研究者做出了以下主要贡献:

  • 文中为用于 NLP 的 GNN 提出了一种新的分类法,其沿图构建、图表示学习和基于图的编码器 - 解码器模型三大主轴对当前相关研究进行了系统性的归纳组织;

  • 本文为用于各种 NLP 任务的当前前沿的 GNN 方法进行了最全面的汇总。文章详细地描述了基于领域知识和语义空间的各种图构建方法、用于各种不同类别的图结构数据的图表示学习方法、使用不同输入和输出数据类型组合的基于 GNN 的编码器 - 解码器模型。文中也给出了必要的比较;

  • 文中介绍了大量利用 GNN 的 NLP 应用,包括如何使用 GNN 在三大组件(图构建、图表示学习和嵌入初始化)中解决 NLP 任务并会提供对应的基准数据集、评估指标和开源代码;

  • 文章最后还列出了为 NLP 任务充分使用 GNN 方面的各种突出难题,另外还讨论并建议了能产生丰富成果的未经探索的研究方向。


这篇综述提出的分类法如下图 1 所示,其对用于 NLP 的 GNN 进行了系统性的组织归纳并将其分为三大方向:图构建、图表示学习和编码器 - 解码器模型。另外也涵盖相关应用。

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图 1:文章提出的分类方法。
 





图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP

参考链接:

  机器之心:首篇NLP领域图神经网络综述:127页,从图构建到实际应用面面观

https://mp.weixin.qq.com/s/KlmRboY7iuxoRP2A_G0krA


专知便捷查看

  • 后台回复“DL4NLP” 就可以获取图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt《DL4NLP》教程带你》专知下载链接

图深度学习如何用于自然语言处理?SIGIR2021这份230页ppt教程带你全面了解DL4NLP