CS224n笔记2 词的向量表示：word2vec

Posted 2020-10-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CS224n笔记2 词的向量表示：word2vec相关的知识，希望对你有一定的参考价值。

如何表示一个词语的意思

　　先来看看如何定义“意思”的意思，英文中meaning代表人或文字想要表达的idea。这是个递归的定义，估计查询idea词典会用meaning去解释它。

　　中文中“意思”的意思更加有意思：

他说：“她这个人真有意思（funny）。”她说：“他这个人怪有意思的（funny）。”于是人们以为他们有了意思（wish），并让他向她意思意思（express）。他火了：“我根本没有那个意思（thought）！”她也生气了：“你们这么说是什么意思（intention）？”事后有人说：“真有意思（funny）。”也有人说：“真没意思（nonsense）”。（原文见《生活报》1994.11.13.第六版）［吴尉天，1999］

——《统计自然语言处理》

　　语言学中“meaning”近似于“指代、所指、符号”。

计算机如何处理词语的意思

　　过去几个世纪里一直用的是分类词典。计算语言学中常见的方式是WordNet那样的词库。比如NLTK中可以通过WordNet查询熊猫的hypernyms (is-a，上位词)，得到“食肉动物”“动物”之类的上位词。也可以查询“good”的同义词——“just品格好”“ripe熟了”。

discrete representation的问题

这种discrete representation虽然是种语言学资源，但丢失了韵味。比如这些同义词的意思实际上还是有微妙的差别：adept, expert, good, practiced, proficient, skillful
缺少新词
主观化
需要耗费大量人力去整理
无法计算准确的词语相似度

　　无论是规则学派，还是统计学派，绝大多数NLP学家都将词语作为最小单位。事实上，词语只是词表长度的one-hot向量，这是一种localist representation（大概是借用localist“局部”的意项）。

　　在不同的语料中，词表大小不同。Google的1TB语料词汇量是1300万，这个向量的确太长了。

从symbolic representations到distributed representations

　　词语在符号表示上体现不出意义的相似性，比如Dell notebook battery size和Dell laptop battery capacity。而one-hot向量是正交的，无法通过任何运算得到相似度。

技术分享

　　需要找到一种用向量直接编码含义的方法。

Distributional similarity based representations

　　语言学家J. R. Firth提出，通过一个单词的上下文可以得到它的意思。J. R. Firth甚至建议，如果你能把单词放到正确的上下文中去，才说明你掌握了它的意义。

　　这是现代统计自然语言处理最成功的思想之一：

技术分享

通过向量定义词语的含义

　　通过调整一个单词及其上下文单词的向量，使得根据两个向量可以推测两个词语的相似度；或根据向量可以预测词语的上下文。这种手法也是递归的，根据向量来调整向量，与词典中意项的定义相似。

　　另外，distributed representations与symbolic representations（localist representation、one-hot representation）相对；discrete representation则与后者及denotation的意思相似。切不可搞混distributed和discrete这两个单词。