将主题标签分类为主题或类别。例如:#FIFA -> SPORTS , VIDEO_GAMES

Posted

技术标签:

【中文标题】将主题标签分类为主题或类别。例如:#FIFA -> SPORTS , VIDEO_GAMES【英文标题】:categorize hashtags into topics or categories. example: #FIFA -> SPORTS , VIDEO_GAMES 【发布时间】:2012-08-14 18:36:06 【问题描述】:

是否有公共 API 或 Java 库可以将 Twitter Hashtags 从有限集中分类为主题/类别。

我需要根据每个 Twitter 帖子的主题标签找到他们的主题。例如:

/#FIFA12 会将此帖子分类为 VIDEO_GAMES/GAMES 或 ENTERTAINMENT 等。

【问题讨论】:

如果没有的话,这听起来像是一个有趣的项目。您可以为每条推文构建一个词袋向量,将向量聚类到 k 个集群中,然后对于同一集群中的推文,说这些推文中的主题标签构成一个类别。当然,您必须手动命名类别。 谢谢回复!能举个简单的例子吗?谢谢! 【参考方案1】:

我不知道有什么 API 可以做到这一点,但一种方法是查看映射到 Wikipedia 标题的主题标签。例如。***中有一个“FIFA12”标题(重定向到不同的页面)。除非字符串不明确,否则您应该能够将大量主题标签映射到 Wikipedia 标题。

一旦有了title,就可以遍历Wikipedia graph,获取父子类别关系。例如。 FIFA12 在***中的分类如下。

2011 video games
Electronic Arts games
EA Sports games
PlayStation 2 games
PlayStation 3 games
PlayStation Portable games
ios games
Xbox 360 games
Wii games
Nintendo 3DS games
Windows games
Video games developed in Canada
Association football video games
Sports video games with career mode
Video games set in 2011 

每个类别都会有更多的父级。例如。 《2011电玩》有家长了

2011 works
21st-century video games
2011 in video gaming
2011 software

您可能可以在每个广度优先搜索级别使用带有阈值(例如 2+)的“多数票”来减少需要分析的节点数量。在某些时候,您可以想出一个启发式方法来停止。例如。 “视频游戏”类别与 FIFA12 相距三跳,可通过多条路径到达。提出最佳启发式方法并非易事,但这里有一些唾手可得的成果。

【讨论】:

这是一个不错的方法,唯一的问题是并非所有主题标签都有相应的 wiki 页面。 没错。但是,如果您将主题标签广义地视为一个“概念”,那么鉴于***有数百万个概念,交叉点应该很大。

以上是关于将主题标签分类为主题或类别。例如:#FIFA -> SPORTS , VIDEO_GAMES的主要内容,如果未能解决你的问题,请参考以下文章

机器学习之--线性分类

momentsx64是啥软件

主题建模 - 将具有前 2 个主题的文档分配为类别标签 - sklearn 潜在狄利克雷分配

查找文本的相似程度 - 一类分类器 (NLP)

具有季节性类别变化的日期文档的二进制分类

聚类 VS 监督分类,在非常小的数据库的情况下