总结***文章

Posted

技术标签:

【中文标题】总结***文章【英文标题】:Summarizing a Wikipedia Article 【发布时间】:2012-01-31 06:27:27 【问题描述】:

我发现自己必须一直学习新事物。我一直在想办法加快学习新学科的过程。我认为如果我可以编写一个程序来解析***文章并删除除了最有价值的信息之外的所有内容。

我首先从PDFs 上的***文章中提取前 100 个句子。我根据我认为它的价值给每个句子打分。我最终创建了一个以下格式的文件:

<sentence>
<value>
<sentence>
<value>
etc.

然后我解析了这个文件并试图找到各种函数,这些函数将每个句子与我给它的值相关联。我刚刚开始学习机器学习和统计等等,所以我在这里做了很多摸索。这是我的最新尝试:https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py。

我尝试了一堆似乎根本没有产生任何相关性的东西——平均字长、文章中的位置等。几乎唯一能产生任何有用关系的东西就是长度的字符串(更具体地说,计算小写字母 'e' 的数量似乎效果最好)。但这似乎有点蹩脚,因为很明显更长的句子更有可能包含有用的信息。

在某一时刻,我以为我找到了一些有趣的函数,但是当我尝试删除异常值(仅计算内部四分位数)时,结果发现它们产生的结果更差,然后只是为每个句子返回 0。这让我想知道我可能做错了多少其他事情......我也想知道这是否是解决这个问题的好方法。

你认为我在正确的轨道上吗?或者这只是一个傻瓜的差事?链接代码中是否存在明显的缺陷?有谁知道解决问题的更好方法?我宁愿有一个快速而肮脏的解决方案,而不是需要很长时间才能完成的完美解决方案。也欢迎任何一般性建议。

【问题讨论】:

接下来,您会希望我们使用新话来使扫描的文章更短;) 你显然太老了。把这种事情留给 16 岁的孩子wired.com/gadgetlab/2011/12/summly-app-summarization :) Summly 看起来很酷。我无法在我的 ipod 上运行它,但我可以阅读评论。他们非常混杂。我觉得它不太好用。 我错了,但在我看来,16 岁以上的人正在使用混合了遗传算法的神经网络?简单有效。 【参考方案1】:

考虑到您的问题更多地涉及研究活动而不是编程问题,您可能应该查看科学文献。在这里,您将找到许多算法的已发布详细信息,这些算法完全符合您的要求。谷歌搜索“关键字摘要”发现以下内容:

Single document Summarization based on Clustering Coefficient and Transitivity Analysis

Multi-document Summarization for Query Answering E-learning System

Intelligent Email: Aiding Users with AI

如果您阅读以上内容,然后按照其中包含的参考资料进行操作,您会发现大量信息。当然足以构建一个功能性应用程序。

【讨论】:

好的,所以我只需要根据句法依赖关系分析创建一个依赖图,并使用聚类系数来测量节点连接。然后就是拉出节点三角形并使用它们来提取关键句子的简单问题。 ffs ......这么多快速和肮脏的。不过说真的,谢谢你的论文。这可能是我能得到的最好的信息了。 嘿……你刚刚成功地总结了那篇论文的关键词。也许这是一个机械土耳其人的工作!【参考方案2】:

就我的两分钱...

每当我在 Wikipedia 上浏览新主题时,我通常会执行“广度优先”搜索;在我扫描了页面连接到的每个链接(这引入了一个我还不熟悉的主题)之前,我拒绝继续讨论另一个主题。我阅读了每个段落的第一句话,如果我在该文章中看到与原始主题相关的内容,我会重复该过程。

如果我要为***“总结器”设计界面,我会

    始终打印整个介绍性段落。

    对于文章的其余部分,打印任何包含链接的句子。

    2a。将任何逗号分隔的链接列表打印为项目符号列表。

    如果文章的链接已“展开”,则打印该文章的第一段。

    如果该介绍性段落被扩展,请重复列出带有链接的句子。

这个过程可以无限重复。

我的意思是,总结 Wikipedia 文章不同于总结杂志文章或博客上的帖子。爬行是通过***快速学习介绍性概念的重要部分,我觉得这是最好的。通常,文章的下半部分是 citation needed 标签开始弹出的位置,但任何给定文章的前半部分都被认为是社区提供的知识。

【讨论】:

以上是关于总结***文章的主要内容,如果未能解决你的问题,请参考以下文章

C++ 相关知识总结

事业文章分类总结构

生活文章分类总结构

hexo文章编写部分语法总结以及hexo使用

40个多线程问题总结

2020技术干货总结