4.3链接预測
表3:链接预測结果。不同方法的性能。
整体结果 表3显示了全部数据集全部方法的比較。
与预期结果一致,经过过滤设置的结果具有较低的平均排名和较高的[email protected],相信在链接预測方面对各种方法有一个清晰地性能评估。然而,raw和filtered的趋势是一样的。
我们的方法TransE在全部度量上面通常非常大程度上优于全部进行比較的方法。而且取得了一些绝对好的性能比如WN上89%的[email protected](超过40k的实体)和在FB1M上的34%的[email protected](超过1M的实体)。TransE和这些第二好的方法之间的不同之处是非常重要的。
我们相信TransE良好的性能是由于对数据恰当的建模,但也是由于模型相对简单。
这意味着它可以用随机梯度有效的优化。
第3节我们已经说明SE比我们的模型更具表达性。然而,它的复杂性可能使它学习起来十分困难,导致性能非常差。
在FB15k上,在训练集的一个有50k的元组的子集上SE取得了165的平均排名和35.5%的[email protected],TransE则分别取得了127和42.7%。这表明其实TransE欠拟合的程度更小,这可能能解释它比較好的性能。SME(双线性)和LFM有相同的训练问题:我们从来都没有成功的把它们训练的足够好来开发出它们全部的功能。
通过我们的评价设置--基于实体排名,LFM较差的结果也可以解释。由于LFM最初是为了预測关系提出来的。在FB15k上。RESCAL可以取得十分好的[email protected],可是平均排名方面比較差,尤其在WN上,即使我们用非常大的隐藏维度(2000 on Wordnet)。
翻译的影响是巨大的。当比較TransE和非结构的方法(也就是缺少翻译的TransE)。非结构化的平均排名相对较好,可是[email protected]非常差。
非结构化的方法简单的把全部出现的实体聚类,不依赖所涉及的关系,因此仅仅靠猜想来推断实体相关。在FB1M上,TransE和非结构化方法的平均排名差点儿一样。可是TransE的预測排在前10位的数目是非结构化方法的10倍之多。
表4:关系聚类的具体结果。我们比較了在FB15k上以过滤数据为评价比較TransE和參考方法的[email protected]。
具体结果?表4展示了在FB15k上根据关系的几种类别的分类结果,并依此对几种方法进行预測。我们根据头和尾的基数參数把关系分为4类:1-1,1-多。多-1,多-多。假设一个头部至多相应一个尾部,那么它们的关系是1-1。假设一个头部相应多个尾部。那么它们的关系是1-多。假设非常多头部相应同一个尾部,那么它们的关系是多-1。假设多个头部相应多个尾部,那么它们是多-多关系。
通过以下的处理我们把关系分成这四类,给定一个序对(l,t)(相同地。序对(h。l),对每一个关系l。计算头部h(相同地。尾部t)出如今FB15k数据集上的平均数。假设这个平均数小于1.5就被标记为1-多等等。比如。每一个尾部平均有1.2个实体而且每一个头部平均有3.2个尾部的关系被分类为1-多。我们得到在FB15k上有26.2%的1-1关系,22.7%的1-多关系,28.3%的多-1关系和22.8%的多-多关系。
表4中的具体结果考虑了一个更精确的评估而且了解了这些方法的行为。首先,它出现了期望的结果。它可以非常easy的预測实体一方仅仅有一个相应关系的元组的实体(也就是预測在关系1-多下预測头部,在多-1关系下预測尾部),也就是有多个实体指向它的时候。
这些是有非常好指向的例子。SME(双线性)被证明在处理这种例子时时非常精确的,由于这些例子是它们训练最多的例子。
非结构化的方法在1-1关系上显示了良好的性能:这表明这种关系的參数必须共享相同的隐藏类型。而非结构化的方法在嵌入空间上通过聚类把实体连接在一起可以发现这种隐藏类型。
可是这种策略在其他关系类型上是失败的。在嵌入空间添加翻译,通过其后的关系从一个实体聚类到还有一个实体聚类。对这些指向性非常好的例子这一点是非常惊人的。
表5:TransE在FB15k測试集上的例子预測。粗体是測试元组正确的尾部,斜体是训练集上其他正确的尾部。
举例说明 表5给出了TransE在FB15k測试集上的例子链接预測的结果。
这举例说明了我们模型的能力。给定一个头部和一个标签。排在最高位的尾部被描写叙述出来。
这些例子来自FB15k的測试集。即使排在最高位的不总是最好的答案,但这个预測也反映了一般的常识。
4.4用几个例子学习预測新关系
用FB15k。通过检查这些方法在学习新关系时的速度有多快来測试他们在泛化新的事实方面有多好。为了那个目的。我们随机选择40个关系而且切割成两个数据集:一个数据集(命名为FB15k-40rel)包括全部40个元组。还有一个数据集(FB15k-rest)包括剩余的数据。
我们确保它们包括全部的实体。FB15k-rest被切割成一个包括353,788个元组的训练集和一个包括53,266个元组的验证集。
FB15-rel分成40,000元组的训练集和45,159的測试集。
利用这些数据集,我们分析例如以下实验:(1)利用FB15k-rest的训练集和验证集训练和选择最好的模型,(2)随后在FB15k-40rel的训练集上训练而且仅仅学习和新的40个关系相关的參数。(3)在FB15k-40rel的測试集(仅仅包括(1)期间没有见过的关系)上进行连接预測评估。在(2)阶段,对每一个关系我们用0,10,100和1000个例子反复这个过程。
图1:用几个例子学习心关系。比較试验数据是FB15k数据集,使用平均排名(左)和[email protected](右)作为评价标准。很多其他细节參见下文。
图1展示了非结构化方法,SE,SME(线性)。SME(双线性)和TransE的结果。
但不提供已知关系时,非结构化方法取得的性能最好,由于它并不使用这些信息去预測。
可是,当提供关系的例子时这种性能并没有得到提升。
TransE是学习最快的方法:仅仅有一个新关系的10个样子时。它的[email protected]仍然有18%,而且随着提供例子的添加这个数据单调递增。
我们相信TransE模型的简单性使它可以有较好的泛化能力。而不必改动不论什么已经训练好的嵌入。
5总结和展望
我们提出了一种新的学习知识库嵌入的方法。主要是最小化模型的參数,主要表示层次关系。通过与两个不同且规模非常大的知识库上和其他方法比較。我们的模型效果非常好,借此我们把它应用到了大规模知识库数据块上。虽然还不清晰用我们的方法是否可以充分地对全部的关系类型建模,可是通过关系分类评价与其他方法相比在全部的设置条件下它似乎有非常好的性能。
后面会进一步分析这个模型,而且把它应用到很多其他的任务中。特别是应用到如文献[8]提到的学习词表示。结合知识库和文本[2]是还有一个重要的方向,我们的方法对此可能是实用的。
因此,近期我们把TransE插入到一个框架中从文本[16]中进行关系抽取。