蟒蛇数据挖掘

Posted 2023-03-12

技术标签:

【中文标题】蟒蛇数据挖掘【英文标题】：python data mining 【发布时间】：2011-07-28 23:34:45 【问题描述】：

我不太喜欢数据挖掘，但我需要一些关于聚类的想法。让我先描述一下我的问题。

我有大约 100 个包含用户评论的数据表。我试图找到描述质量的例子。一个人可以说这是惊人的质量，另一个人可以说质量很好，现在我必须对那些描述那些相似句子的文档进行聚类并获得这些句子的频率。在这里应用什么概念？

我想我必须指定一些停用词和同义词。我对这个概念不太熟悉。

谁能给我一些详细的链接或解释？以及使用什么工具？我基本上是一个 python 程序员，所以任何 python 模块都会受到赞赏。

谢谢

【问题讨论】：

我认为你手头有一个情感分析（意见挖掘）的任务。您应该查看有关情感分析的文本。 bing liu's page of sentimental analysis 也看看nltk，它对你的任务非常有用。 【参考方案1】：

有http://www.nltk.org/ 用于语言处理。使用这个库，您可以将文本拆分成句子、计算词频、查找同义词等等。

Carrot^2 是一个不错的用于集群文本 sn-ps 的开源项目，不幸的是它是用 Java 编写的。其聚类背后的想法是术语和短语（bigrams 和 trigrams）频率。在预处理每个文档（sn-p，review）之后，都表示为术语/短语频率的向量。为了计算集群，他们使用一些线性代数并在该术语空间中找到主成分。然后使用这些组件为它们形成集群和标签。

在您的情况下，值得将评论视为文档，对它们进行聚类并获取聚类标签。可能是标签会以某种方式评估评论。

在您的特定情况下，值得消除感兴趣的单词，从而显着降低维度，这在此类任务中非常关键

另一个有用的项目 - montylingua

【讨论】：

【参考方案2】：

这里有两篇从评价性文本中提取信息的论文。看起来他们正在做你想做的事情。

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.91.9534

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.77.5392&rep=rep1&type=pdf

【讨论】：

【参考方案3】：

我会遵循this question on CrossValidated 的主要建议。特别是，看看scikit-learn。

【讨论】：