根据研究论文题目分类研究论文

Posted

技术标签:

【中文标题】根据研究论文题目分类研究论文【英文标题】:Research papers classification on the basis of title of the research paper 【发布时间】:2014-04-27 22:06:15 【问题描述】:

亲爱的,我正在从事一个项目,我必须使用论文标题将研究论文分类到相应的领域。例如,如果在标题中某处出现短语“计算机网络”,则应将本文标记为与“计算机网络”概念相关。我有 300 万篇研究论文。所以我想知道我应该如何开始。我曾尝试使用 tf-idf 但无法获得实际结果。有人知道图书馆可以轻松完成这项任务吗?请推荐一个。我会很感激的。

【问题讨论】:

300 万篇研究论文和人们在堆栈溢出中询问。这就是我们所知道的学院的终结:-) 你可能会发现这个社区有比这个更聪明的人来回答这个问题 :-) stats.stackexchange.com 你提前准确知道分类的数量吗? (例如医学、力学、IT、航空航天......)还是要自动构建它? 是类别不相交的集合还是一篇论文被允许分为两个或多个类别? 不,我不提前知道分类,我知道的是所有论文都与IT有关 【参考方案1】:

如果您事先不知道类别,则不是分类,而是聚类。基本上,您需要执行以下操作:

    选择算法。 选择并提取特征。 将算法应用于特征。

很简单。您只需要选择最适合您情况的算法和功能组合。

在谈论集群时,有几种流行的选择。 K-means 被认为是最好的方法之一,并且有大量的实现,即使在不专门研究机器学习的库中也是如此。另一种流行的选择是期望最大化(EM)算法。然而,它们都需要对类数进行初步猜测。如果您甚至无法大致预测类的数量,其他算法(例如 层次聚类DBSCAN)可能更适合您(参见讨论 here)。

至于特征,单词本身通常可以很好地按主题进行聚类。只需tokenize您的文本,normalizevectorize字词(如果您不知道这一切意味着什么,请参阅this)。

一些有用的链接

Clustering text documents using k-means NLTK clustering package Statistical Machine Learning for Text Classification with scikit-learn and NLTK

注意:这个答案中的所有链接都是关于 Python 的,因为它为这类任务提供了非常强大和方便的工具,但是如果你有另一种偏好的语言,你很可能也能找到类似的库.

【讨论】:

【参考方案2】:

事实上,您事先不知道类别的数量,您可以使用名为OntoGen 的工具。该工具基本上采用一组文本,进行一些文本挖掘,并尝试发现文档集群。它是一个半监督工具,所以你必须稍微指导一下这个过程,但它确实很神奇。该过程的最终产品是主题的本体。

我鼓励你尝试一下。

【讨论】:

【参考方案3】:

对于 Python,我会推荐 NLTK(自然语言工具包),因为它有一些很棒的工具可以将您的原始文档转换为可以提供给机器学习算法的功能。首先,您可以尝试一个简单的词频模型(词袋),然后再转向更复杂的特征提取方法(字符串内核)。您可以从使用 SVM(支持向量机)开始使用 LibSVM(最好的 SVM 包)对数据进行分类。

【讨论】:

以上是关于根据研究论文题目分类研究论文的主要内容,如果未能解决你的问题,请参考以下文章

EXCEL表格如何把同一类别的题目自动求和

综合论文训练2021年评审意见

论文笔记—VGG网络—2014-ICLR

机器学习方法--分类回归聚类

今天研究了一下手机通信录管理系统(C语言)

2022年第十一届认证杯数学中国数学建模国际赛小美赛C 题 对人类活动进行分类 27页论文及代码