最终中国还是胜在了基数大。据吴信东教授介绍,在所有录取的194篇文章中,其中有74篇来自中国,62篇来自美国;也即有70%的录用文章是被中美两国所瓜分。根据录用时的平均最高分以及组织会的投票选择,本次会议的最佳论文奖获得者授予给了来自GeorgeMason大学的Xiaojie Guo,Liang Zhao等人,而最佳学生论文奖则由Michigan大学的Mark Heimann等人摘取。补充一点,本次会议还授予了研究贡献奖、10年最具影响力奖、李涛奖。研究贡献奖的获得者是来自斯坦福大学的JureLeskovec教授,他也是ICDM 2010最佳应用论文奖的获得者;而获得10年最具影响力奖的论文是由 Steffen Rendle发表在2010年的论文(Factorization Machines ICDM’10, pp.995-1000);李涛奖是为了纪念数据挖掘领域著名学者李涛,该奖项于去年设立,今年的获奖者为UIUC的华人学者Hanghang Tong。对于投稿分析还有一个比较重要的便是话题分析,组委会对不同的领域投稿做了排序。从下图可以看出“在传统领域对新数据进行挖掘的算法”和“网络环境的挖掘和关联分析”两年连续霸榜,其他则都稍有变动,这种分析在一定程度上也反映了数据挖掘领域的主流和新趋势:主流的依旧是主流,新趋势则在上升或下降。投稿中,尤为关键的一个角色便是审稿人,审稿人的喜好也决定了论文的录取情况。组委会为了分析本年度审稿人的喜好,也尝试了对标题词进行分析,计算方式如下所示: 分析结果如下图:可以看出标题中带有 adversarial、dynamic、alignment、feature、generation等词汇时论文更容易被录取,而标题中带有 deep 、based、model、prediction、detection等词汇的论文杯具的概率就比较大了,特别是带有based的论文杯具率达90.79%。你能从这个标题词汇正、负率中推测出审稿人的喜好是什么吗?那么我们再来一张词云吧:真的是成也学习,败也学习! 二、主旨报告本次大会邀请了数据挖掘的巨擘UIUC的韩家炜教授、IBM研究院的Ronald Fagin以及康奈尔大学的Joseph Halpern做大会主旨报告。韩家炜的报道主题是Embedding-Based Text Mining: AFrontier in Data Mining。我们对韩家炜以往的研究已经做过详细的报道;而Embedding则是韩家炜近来研究的一个重要方向,在CIKM和ICDM两场会议中,韩教授都详细介绍过他们实验室近来在Embedding方面所做的工作《Spherical Text Embedding》,且相应的工作已经发表在NeurIPS 2019。比较有意思的是,据他的学生透露,这篇文章是韩家炜教授本年度最喜欢的一篇工作,但很不幸在最初投稿时却被拒了,因为没有和最近的显学BERT进行比较;随后韩家炜等人做了比较,充分证明并分析了BERT在词相似等任务中确实不如Embedding,如下图所示:让笔者感到极为佩服的是,作为数据挖掘领域的泰斗,从3日的CIKM一直到11日的ICDM结束,韩家炜教授每天都会去会场参会,让吾等去一天休三天的年轻人汗颜。Ronald Fagin是IBMFellow(这个Fellow是IBM的最高荣誉,现在全世界范围内也就100位,这可是从IBM 在全世界40万雇员中选出的哦,而且整个历史上总共也就大约250名)。 Ronald老先生笑起来很魔性 他在ICDM上的演讲主题为“Applyingtheory of data to practice”,具体来讲就是讲了两个IBM的研究案例。第一个是Top k问题的算法研究,Ronald在报告中提供了一种最优算法,只需要10行就可以解决这个问题;这个算法也获得了2014年的哥德尔奖(理论计算机科学中的最高奖),这个问题是由实践中逐渐提出的,最终却获得了理论界的最高奖项。第二个则是从理论层面提出的问题,即数据交换,本质上来说就是将数据从一种格式转换为另一种格式,但其中实践上的复杂的问题却让数据交换成为一个新的子领域,甚至有专门的会议。Ronald在这里想要强调的就是:理论家一定要和实践家共同起来工作,反之亦然,这样两种类型的学者共同受益。康奈尔大学的Joseph Halpern演讲的非常理论,主题为“Actual Causality”。事件C“实际引起”事件E是什么意思?这是Joseph提出的问题。 一看Joseph就是个哲学家在报告中,Joseph分析了自亚里士多德、休谟等哲学家对因果关系的分析,他认为许多定义都是根据反事实提出的。(如果C没有发生,那么C就是E的原因,那么E就不会发生。)2001年 Joseph等人提出了一种新的实际原因定义,使用结构方程概念对事实进行建模。由于内容太过抽象,笔者在此就不再详细介绍,对此感兴趣的读者可以在「AI科技评论」微信公众号回复「Joseph」查看PPT照片。值得一提的是,在本次会议中几位赞助商也获得了工业报告的机会。
标题:Distribution of Node Embeddings asMultiresolution Features for Graphs论文链接:https://markheimann.github.io/papers/19ICDM_RGM.pdf
摘要:从生物信息学、神经科学到计算机视觉和社交网络分析,图分类是许多领域的重要问题。也就是说,为了图形分类的目的而比较图形的任务面临着几个主要挑战。特别是,有效的图比较方法必须(1)在表达上和归纳上比较图;(2)有效地比较大图;(3)使用快速机器学习模型进行图分类。为了解决这些挑战,作者提出了随机网格映射(RGM),这是一种快速计算的特征图,通过其节点嵌入在特征空间中的分布来表示图。作者通过与内核方法的紧密联系来证明RGM的合理性:RGM可证明地近似拉普拉斯内核均值图,并且具有金字塔匹配内核的多分辨率特性。作者还表明,可以使用Weisfeiler-Lehman框架将RGM扩展为合并节点标签。大量实验表明,使用RGM特征图进行图分类的准确性优于或优于许多强大的图核,无监督图特征图和深度神经网络。此外,在保持高分类精度的同时,将基于其节点嵌入的图与RGM进行比较的速度比竞争基准快一个数量级。One more thing 明年ICDM的举办地:意大利的Sorrento——