同义词样式文本查找和解析
Posted
技术标签:
【中文标题】同义词样式文本查找和解析【英文标题】:Synonym style text lookup and parsing 【发布时间】:2010-11-07 06:05:43 【问题描述】:我们有一个客户正在寻找一种方法来导入和分类大量文本数据。必须对这些数据进行分类,并且建议最简单的方法是查看描述字段并尝试匹配其中包含的单词,以查看是否可以为该特定记录派生类别。
人们认为最好的方法是将单词与针对每个类别的关键词进行匹配,如果不成功,则使用某种同义词查找以查看是否可以使用它。因此,例如,如果特定记录中包含“汽车”一词,则同义词查找可以将该词与“汽车”一词匹配,该词将与“车辆”类别相对应。
有没有人知道网络服务或其他查找字典以查找特定单词的同义词的方法?项目经理建议为此购买 Google Enterprise Search 许可证,但据我所知,这并不能提供这些人正在寻找的东西。
任何其他让客户得到他们正在寻找的东西的建议都将被欣然接受。
谢谢!我会研究 Wordnet。
您知道其他类型的文本分类软件产品吗?我看到有一些关于使用 Bayasian 算法的讨论,但我看不到任何真实世界的例子。
【问题讨论】:
【参考方案1】:对于文本分类,您可以查看Apache Mahout。
【讨论】:
【参考方案2】:您应该考虑使用 WordNet。您可以访问他们的网站http://wordnet.princeton.edu/ 以获取更多信息,但有一些库可用于集成多种语言的库。
访问他们的在线工具,在此处查看它的实际使用情况:http://wordnetweb.princeton.edu/perl/webwn。如果您查找一个单词,然后单击每个定义旁边的“S”,您将获得与该定义语义相关的单词列表。
我还认为您应该查看允许您执行“文档集群”的软件。这是一个示例:http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview。这应该可以帮助您引导类别创建过程。
我认为这将帮助您朝着想要的方向前进!
【讨论】:
【参考方案3】:首先想到的是Wordnet。 Wordnet 是一个人工生成的单词和相关单词数据库,包括同义词。 The Wikipedia Wordnet entry 列出了 Wordnet 的几个接口。我相信其中一些是网络服务。 您也可以自己滚动。 Manning and Schutze's chapter 5 (free PDF) 显示了执行此操作的方法。
话虽如此,您是否解决了正确的问题?您如何构建类别列表? 是等级制度吗?标签云?请参阅Clay Shirky's Ontology is Overrated 对分层类别的批评。我认为,如果您将分类基于单词集(例如朴素贝叶斯)而不是单个单词,那么同义词就不那么重要了。
【讨论】:
以上是关于同义词样式文本查找和解析的主要内容,如果未能解决你的问题,请参考以下文章
在 Javascript 中创建 Safari 的查找函数样式文本选择器
需要使用 RegEx 和 BeautifulSoup 查找文本