如何从网页中提取文本内容? [关闭]

Posted

技术标签:

【中文标题】如何从网页中提取文本内容? [关闭]【英文标题】:How to extract textual contents from a web page? [closed] 【发布时间】:2012-03-02 04:44:43 【问题描述】:

我正在用 java 开发一个应用程序,它可以从不同的网页获取文本信息并将其汇总到一个页面中。例如,假设我在不同的网页上有一条新闻,如印度教、印度时报、政治家等.现在我的应用程序应该从这些页面中的每个页面中提取重要点并将它们放在一起作为一个单独的新闻。该应用程序基于Web内容挖掘的概念。作为该领域的初学者,我不明白在哪里开始吧。我已经阅读了研究论文,其中解释了噪声消除是构建此应用程序的第一步。

所以,如果给我一个新闻网页,第一步是从页面中提取主要新闻,不包括超链接、广告、无用图像等。我的问题是我该怎么做?请给我一些很好的教程来解释使用网络内容挖掘来实现这种应用程序。或者至少给我一些提示如何完成它?

【问题讨论】:

【参考方案1】:

您可以使用readability 或boilerpipe 这两个开源工具来完成此任务。对于教程,您应该阅读这两个项目的代码和文档。

【讨论】:

我听说过锅炉管,它很不错,但我想自己做,这样我可以从中学习。你能告诉我我该怎么做吗?应该遵循哪些步骤? 在 Google 学者中搜索有关该主题的论文。阅读现有实现的代码。建立网站评估语料库和正确的文本提取。计算每个提取器的工作精度。查看错误,考虑如何修复它们,改进提取器。

以上是关于如何从网页中提取文本内容? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

如何从PDF文档中提取文本? [关闭]

如何从android中的jpeg图像中提取文本[关闭]

如何从 .doc 和 .docx 文件中提取纯文本? [关闭]

网上银行网页抓取[关闭]

android:从图像中提取文本[关闭]

使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是啥? [关闭]