词表征 1：WordNet0-1表征共现矩阵SVD

Posted 2021-11-26 cherrychenlee

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了词表征 1：WordNet0-1表征共现矩阵SVD相关的知识，希望对你有一定的参考价值。

一、基于知识的表征

技术图片

参见图1.1，WordNet中包含同义词集(synonym sets)和上位词(hypernyms, is a关系)。
其存在的问题为：

技术图片

参见图2.1，0-1表征中，向量维度为数据库中总词汇数，每个词向量在其对应词处取值为1，其余处为0。
其存在的问题为：

基本思想：相似的词有相似的上下文。

词-文档共现矩阵\(\in R^{|V|*M}\)，其中，\(|V|\)为词汇量大小，\(M\)为文档数量。
常给出文档的主题信息。

词-词共现矩阵\(\in R^{|V|*|V|}\)，其中，\(|V|\)为词汇量大小。
窗口大小常取5~10，通常对称、不分左右。
常捕获语法、语义信息。
技术图片

图2.2中红框部分为基于窗口大小为1、不区分左右形成的"love"、"enjoy"对应的高维稀疏词向量。
其存在的问题为：

技术图片

通过对共现矩阵进行SVD，得\(X=USV^T\)。选择\(U\)的前\(k\)列得到\(k\)维词向量。
通过计算\(\frac{\sum_{i=1}^{k}s_i}{\sum_{j=1}^{|V|}s_j}\)得到前\(k\)维捕获到的信息比例。
其优势为：

其存在的问题为：

其常用的解决办法为：

以上是关于词表征 1：WordNet0-1表征共现矩阵SVD的主要内容，如果未能解决你的问题，请参考以下文章