评论摘要的 NLP 项目

Posted

技术标签:

【中文标题】评论摘要的 NLP 项目【英文标题】:NLP project on Comment Summarization 【发布时间】:2014-12-06 08:46:58 【问题描述】:

我计划完成关于自然语言处理(使用 NLTK)的最后一年项目,我感兴趣的领域是 来自社交媒体网站的评论摘要,例如 Facebook。例如,我正在尝试做这样的事情:

图片中的随机 Facebook cmets:

    哇!漂亮。 看起来真的很漂亮。 非常漂亮,漂亮的照片。

现在,所有这些 cmets 都将被映射(使用基于模板的评论摘要技术)成如下内容:

3 个人觉得这张照片很“漂亮”。

输出将包含单词 “beautiful”,因为它在 cmets 中比单词 “pretty”更常用 em>(以及 Beautiful 和 pretty 是同义词的事实)。为了完成这项任务,我将使用诸如跟踪 关键字频率之类的方法和关键字得分(在这种情况下,“Beautiful”“Pretty”的得分非常接近)。 这是最好的方法吗?

到目前为止,通过我的研究,我已经能够提出以下论文,但没有一篇论文涉及这种评论摘要:

Automatic Summarization of Events from Social Media Social Context Summarization -

该领域还有哪些其他论文解决了类似的问题?

除此之外,我还希望我的摘要器在每次摘要任务中都得到改进。在这方面我如何应用机器学习

【问题讨论】:

【参考方案1】:

主题模型聚类正是您要寻找的。​​p>

在 Google 学术搜索中搜索“主题模型聚类将为您提供大量关于主题模型聚类的参考资料。

要理解它们,除了机器学习的一般基础知识之外,您还需要熟悉以下任务的方法。

    聚类:余弦距离聚类、k-means 聚类 排名:PageRank、TF-IDF、互信息增益、最大边际相关性

【讨论】:

好的,谢谢,但是我跟踪关键字频率的方法绝对错误吗? 不,不是。 AMOF Chua 等人的论文。您在问题中提到的所有内容都使用主题模型。我的回答为您指明了查找内容的方向。主题建模有多种方法。由您来确定最适合您的数据的方法

以上是关于评论摘要的 NLP 项目的主要内容,如果未能解决你的问题,请参考以下文章

NLP | TextRank文章摘要提取算法流程

自然语言处理NLP之文本摘要机器翻译OCR信息检索信息抽取校对纠错

NLP方向组会内容整理Pointer Network在文本摘要中的应用

NLP方向组会内容整理Pointer Network在文本摘要中的应用

DL4NLP —— seq2seq+attention机制的应用:文档自动摘要(Automatic Text Summarization)

DL4NLP —— seq2seq+attention机制的应用:文档自动摘要(Automatic Text Summarization)