通用 Web 解析器 [关闭]

Posted

技术标签:

【中文标题】通用 Web 解析器 [关闭]【英文标题】:Generic Web Parser [closed] 【发布时间】:2013-12-24 09:08:24 【问题描述】:

我正在尝试从两个网站上抓取数据。我想构建一个通用的网络解析器来抓取这些网站。我需要一个通用解析器,因为我将来可能需要解析其他网站。我想使用 java 解析网站并将特定数据存储在 mysql 中。我应该采取哪些步骤?有人可以指导我吗?

【问题讨论】:

这太宽泛了,你还没有表明你已经对这个问题做了任何工作。 SO 旨在回答具体问题,而不是提供有关此类广泛主题的一般教程/教育。 【参考方案1】:

我已经为使用 java 抓取网页做了同样的事情,构建解析器绝对是一场噩梦,还有很多事情要考虑,你一开始就意识到了。

使用jSoup。它非常简单,让您有时间享受生活中更美好的事物。

【讨论】:

是的,这就是我打算使用的。我认为使用 Jsoup 和正则表达式应该让它变得容易一些。谢谢! 别担心!我也很喜欢 jsoup 有一个“沙盒”,可以说你可以在哪里测试东西 - try.jsoup.org,学习如何使用它的主页是他们的“食谱”(我花了一段时间才找到它,但是这是一颗宝石) 嘿,如果这对你有用,你会标记它正确吗?

以上是关于通用 Web 解析器 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

使用 HTML 解析器获取特定 div 的内容 [关闭]

作为有限状态机的通用语言解析器

wireshark 通用解析器 - 使用数据包序列来定义消息

带有通用子解析器命令的 Python argparse

通用日志解析器算法

Android:解析 XML 数据的最佳解析器 [关闭]