Tf-Idf vectorizer 分析来自行而不是单词的向量
Posted
技术标签:
【中文标题】Tf-Idf vectorizer 分析来自行而不是单词的向量【英文标题】:Tf-Idf vectorizer analyze vectors from lines instead of words 【发布时间】:2016-12-01 14:09:17 【问题描述】:我正在尝试分析由行给出的文本,我希望在 python 中使用 sckit-learn 包的 TF-IDF-vectorization 对行进行矢量化。 问题是向量化可以通过单词或 n-gram 来完成,但我希望它们针对行来完成,并且我已经排除了将每一行向量化为单个单词的工作(因为这样的话并且它们的含义不会被考虑)。
查看文档我没有找到如何做到这一点,那么有没有这样的选择?
【问题讨论】:
【参考方案1】:您似乎误解了 TF-IDF 矢量化的作用。对于每个单词(或 N-gram),它为单词分配一个权重,该权重是该词的频率 (TF) 和文档中其他词的逆频率 (IDF) 的函数。将它用于单词(例如,知道“pizza”这个词出现的频率)或 N-gram(例如,“Cheese Pizza” 表示 2-gram)是有意义的
现在,如果您在线进行,会发生什么?除非你碰巧有一个语料库中的行完全重复(例如“我在 Python 中需要帮助”),否则你的 TF-IDF 转换将是垃圾,因为每个句子在文档中只会出现一次。如果您的句子确实总是与标点符号相似,那么出于所有意图和目的,它们不是您语料库中的句子,而是单词。这就是为什么没有选择用句子做 TF-IDF 的原因:它的实际意义或理论意义为零。
【讨论】:
是的,我明白这一点,这正是我想做的。我的台词几乎完全重复。 这就是重点:如果它们几乎完全重复,那么它们在 Scikit 眼中将完全不同,就像对单词的 TF-IDF 转换将处理 "Word" 和 "工作”作为完全不同的词。如果您想要从相同单词的重复中分析它们的相似性,那么您需要对它们的单词(或 N-gram)内容进行向量化,然后将向量或一个句子与另一个向量进行比较。如果要将完整文档与另一个文档进行比较,则需要比较文档之间句子的平均余弦差。 我想做 n-gram 分析之类的事情,问题是我的行长度不同。 那么简单的单词或二元分析就可以了。自己尝试一下:在 TF-IDF 向量空间中转换你的完整句子语料库(使用单个词作为分析单位),并比较两个句子的余弦相似度,它们仅因一个非常频繁的词而异(例如“The ”),两个句子因一个极不常见的词(“鸭嘴兽”)而异,还有两个完全不同的句子。您会看到余弦相似度从第一次比较到最后一次比较减少。 我试试看。你能解释一下我如何通过这种方法找到两个句子的相似之处吗?变换到向量空间后以上是关于Tf-Idf vectorizer 分析来自行而不是单词的向量的主要内容,如果未能解决你的问题,请参考以下文章