学术全景图:机器学习与自然语言处理

Posted 机器人网

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学术全景图:机器学习与自然语言处理相关的知识,希望对你有一定的参考价值。

2017 年是自然语言处理(NLP)和机器学习(ML)非常高产的一年。两个领域持续增长,会议论文数量纷纷打破记录。本文中我将根据个人作者和组织进行更详细的细分。统计信息来自以下会议:ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、Sem+SemEval、NIPS、ICML、ICLR。与上年不同,这次把 ICLR 包含了进来,它在过去两年飞速发展为一个很有竞争力的会议。此外,小编也将我们统计的会议结果添加到该报告中,并作一定的分析。

MAREK REI 的分析是通过爬虫自动抓取会议官网和 ACL 选集的发表信息而完成的,因此分析主要集中在自然语言处理。MAREK REI 表示作者姓名一般列在议程之中,因此可轻松提取;但是机构名称相对麻烦,需要从 PDF 直接抓取。而我们添加的信息主要来源于 2017 年报道过的人工智能方面的顶会,因此它正好可以补充原作者提供的信息。

会议

首先,让我们看看 2012-2017 年间的公开会议。NIPS 当仁不让,今年共发表 677 篇论文,排名第一。其他多数会议也快速增长,是 ICML、ICLR、EMNLP、EACL 和 CoNLL 规模最大的一年。相比之下,TACL 和 CL 的论文发表数量似乎每年保持不变。NAACL 和 COLING 的论文数量则为零,期望其在 2018 年有更好表现。


其实从接收论文的情况我们就能看出一些趋势,因为自 2015 年来 NIPS 的接收论文就有很大的提升,这与机器学习和深度学习的崛起有很大的关系。神经信息处理系统大会(Neural Information Processing Systems,NIPS)是机器学习与计算神经科学方面的顶会,本届 NIPS(31st)大会注册人数超过 8000 人;共收到 3240 篇提交论文。其中有 20.9% 被组委会接收;议程包括 679 个 Poster 演讲,40 个长演讲(Oral), 112 个短演讲(Spotlight)。若根据 NIPS 2017 提交论文数量进行分析,最热门的三个子领域为算法、深度学习和应用,由于深度学习目前并没有一种给我们美感的完整体系,所以很可能这一领域的研究在 2018 年将会继续进行下去。

NIPS 2017 的热门子领域。

MAREK REI 更多关注的是自然语言处理与 ML 会议,而其它如 CVPR、ICCV 和 KDD 等计算机视觉顶会与数据挖掘顶会都没有涉及到。因此我们可以补充一些 2017 年的论文提交与接收情况,如下展示了 11 项顶会的论文提交与接收情况。其中除了上述的 NIPS,AAAI 和 CVPR 等大会也非常值得我们关注。

学术全景图:机器学习与自然语言处理

AAAI、CVPR、IJCAI、ICCV、NIPS 今年的投稿数量均超过 2000,接收的论文数量均超过 600。ICLR 2017 是举办以来的第五届,去年的论文录用率接近 30%,今年达到了 40%。KDD 论文录用率 18.9%,是上图九大会议中论文录用率最低的会议。

作者

2017 年最多产的个人作者是 Iryna Gurevych(达姆施塔特工业大学),共发表论文 18 篇。Lawrence Carin (杜克大学) 发表论文 16 篇,其中 10 篇被 NIPS 收录。紧随其后的是 Yue Zhang(新加坡大学)、Yoshua Bengio(蒙特利尔大学)和 Hinrich Schütze(慕尼黑大学)。


值得注意的是,曾撰文批评了蒙特利尔大学的新论文《Adversarial Generation of Natural Language》的 Yoav Goldberg 也有 10 篇论文被这些会议接收。他曾表明:「尽管我同意 arXiv 上短时间的发布周期比现在长时间的同行评议流程更好,但现在人们在使用 arXiv 树旗帜、占山头,规避同行评议过程,而且这个趋势已越来越显著。这种情况对于那些「强」研究组而言更是显著。目前来说,将你的成果(通常是初步的和不完整的)发在 arXiv 上没有什么实质的坏处,只有潜在的好处。」

其实目前很多作者都将论文预先发表在 arXiv 上,以上 MAREK REI 统计的接收论文情况很大程度上反映了这些学者的学术水平,只不过由于原作者重点关注自然语言处理,所以还有很多 2017 年优秀的学者与论文没有展示在统计中。

看一下 2012-2017 年的累积统计结果,Chris Dyer(DeepMind)遥遥领先,紧随之后的是 Iryna Gurevych(达姆施塔特工业大学)和 Noah A. Smith(华盛顿大学)。Lawrence Carin(杜克大学)、Zoubin Ghahramani(剑桥大学)和 Pradeep K. Ravikumar(卡内基梅隆大学)发表的论文主要在机器学习会议,而其他人则在 NLP 和机器学习之间平衡。

学术全景图:机器学习与自然语言处理

按年份将发表论文数分开表明 Chris Dyer 在今年的发表论文数有所下降,而 Iryna Gurevych 的发表论文数有很强的上升趋势。

学术全景图:机器学习与自然语言处理

第一作者

我们来看看第一作者的情况,第一作者通常是实现代码和运行实验的人。Ivan Vulić(剑桥大学)、Ryan Cotterell(约翰霍普金斯大学)和 Zeyuan Allen-Zhu(微软研究院)都在 2017 年以第一作者的身份发表了 6 篇论文。紧随其后的是 Henning Wachsmuth(魏玛大学)、 Tsendsuren Munkhdalai(微软 Maluuba)、李纪为(斯坦福大学)和 Simon S. Du(卡内基梅隆大学)。

如上所示,斯坦福博士李纪为在 2017 年也有非常多的接收论文,他主要的研究方向是自然语言处理(NLP)。在三年的博士生涯中,他的多篇论文被各类顶级会议接收。在四月底结束的 ICLR 2017 上,李纪为有三篇论文被大会接收,其中两篇为第一作者;而在即将于 9 月份举行的 EMNLP 2017 上,他有两篇论文被大会接收,均为第一作者(参见:

如何生物转CS,并在斯坦福大学三年拿到PhD:独家专访李纪为博士 )。

此外,由于 ICCV 等计算机视觉领域的会议没有得到统计,因此何恺明等人并没有在以上统计中展现。在 ICCV 2017 中,Facebook AI 研究员何恺明获得最佳论文奖,同时是最佳学生论文的作者之一。算上此前在 CVPR 2009、CVPR 2016 上的两篇「最佳论文」,何恺明现在已获得了四个最佳论文称号(参见:ICCV 2017奖项公布:最大赢家何恺明获最佳论文,参与最佳学生论文)。

机构组织

看一下 2017 年的不同机构组织的发表模式,卡内基梅隆发表了 126 篇论文,处于领先地位,而微软、谷歌和斯坦福紧随其后。包括 MIT、哥伦比亚、牛津、哈佛、多伦多、普林斯顿和苏黎世在内的大学发表的论文中,相比 NLP,机器学习占比例更大。相比之下,包括爱丁堡、IBM、北京、华盛顿、约翰霍普金斯、宾州、中科院、达姆施塔特、卡塔尔在内的大学和机构更关注 NLP 会议。


如上在 2017 年的大会接收论文中,清华大学和北京大学分别以 38、37 篇接收论文取得了非常好的成绩,中国科学院在 2017 在这些大会中也有 22 篇接收论文。

看一下 2012-2017 年的整段时期,卡内基梅隆依然是其中的佼佼者,而微软、谷歌和斯坦福紧随其后。


在这些会议历年的累积接收论文中,北京大学、清华大学、中国科学院和哈尔滨工业大学都有非常好的排名。但这这些会议偏重于自然语言处理,因此国内还有其他一些非常优秀的学府没有统计并展示在内。

看看下方的时间序列,卡内基梅隆、斯坦福和 MIT 在发表论文数上呈上升趋势。相比之下,行业领袖谷歌、微软和 IBM 的发表论文数略微有所下降。


主题聚类

最后,我对所有发表过 9 篇或以上论文的作者的论文文本进行了 LDA 分析,并用 tsne 将结果可视化。图中间是机器学习、神经网络和对抗学习的主题。最密集的聚类涵盖了强化学习和不同的学习策略。图左的聚类包含 NLP 应用、语言建模、文本解析和机器翻译。图底的聚类包含信息建模和特征空间。

最新推出机器人、无人机/、AI 『图集技术资料』(点左下角阅读原文)

以上是关于学术全景图:机器学习与自然语言处理的主要内容,如果未能解决你的问题,请参考以下文章

斯坦福《图学习》论坛图机器学习最新进展!

MEGNet普适性图神经网络,精确预测分子和晶体性质

数据挖掘和机器学习的面试问题

参会|Python高级编程与机器学习技术及应用实战培训班(10.22-10.25,广州,实地视频同时进行)

学习笔记 2022 综述 | 自动图机器学习,阐述 AGML 方法库与方向

python机器学习基础 机器学习实战