word2vec 对监督学习有意义吗?

Posted

技术标签:

【中文标题】word2vec 对监督学习有意义吗?【英文标题】:Does word2vec make sense for supervised learning? 【发布时间】:2016-10-29 05:02:02 【问题描述】:

我有一个句子/标签对列表来训练模型,我应该如何将句子编码为输入,比如 SVM?

【问题讨论】:

【参考方案1】:

这些句子是同一种语言吗?您可以从预训练的 word2vec 文件开始,如果它是英文的,您可以从 Google 下载该文件。注意训练文件是如何创建的,是否应用了词干提取等。它是从哪个语料库生成的也有些重要;如果这是来自新闻组,或者是从网络或更正式的文本中提取的,您会得到不同的结果。

Word2Vec 基本上将每个单词编码到更高维的向量空间中。这通常是 200,300 或 500 个维度。训练好之后,“测试”的句子基本上是词袋,不需要任何顺序。

然后,您将针对词袋中的每个词,找出对应的 word2vec 向量。然后,您可以通过平均向量来创建特征,取“最小值”、“最大值”,如果您正在比较文本,请查看计算向量之间的余弦相似度。然后在 SVM 中使用这些功能。

【讨论】:

以上是关于word2vec 对监督学习有意义吗?的主要内容,如果未能解决你的问题,请参考以下文章

基于深度学习的自然语言处理—前预训练时代的自监督学习

基于深度学习的自然语言处理—前预训练时代的自监督学习

基于深度学习的自然语言处理—前预训练时代的自监督学习

将句子表示为向量(上):无监督句子表示学习(sentence embedding)

有监督和无监督

监督机器学习:数据点数量和变量之间的关系