网络抓取和网络抓取有啥区别? [复制]

Posted

技术标签:

【中文标题】网络抓取和网络抓取有啥区别? [复制]【英文标题】:What is the difference between web-crawling and web-scraping? [duplicate]网络抓取和网络抓取有什么区别? [复制] 【发布时间】:2011-05-18 15:55:07 【问题描述】:

抓取和网页抓取之间有区别吗?

如果存在差异,为了收集一些网络数据以提供数据库供以后在定制搜索引擎中使用,最好的方法是什么?

【问题讨论】:

抓取意味着从页面中提取内容。爬行意味着跟随链接到达许多页面。爬虫必须抓取,这有两个原因:一是有用的爬虫不会无故遍历页面;他们收集信息(例如,为搜索引擎建立搜索索引的索引词)。其次,他们必须发现到其他页面的链接。 【参考方案1】:

AFAIK Web Crawling 是 Google 所做的 - 它绕过网站查看链接并构建该网站及其链接到的网站的布局数据库

Web Scraping 将是对网页进行程序分析以从中加载一些数据,例如加载 BBC 天气并从其中抓取(抓取)天气预报并将其放置在其他地方或在另一个程序中使用它。

【讨论】:

【参考方案2】:

搜索本质上是 Google、Yahoo、MSN 等搜索任何信息的方式。抓取通常针对某些网站,用于特定数据,例如为了价格比较,所以编码完全不同。

通常,抓取工具会针对它应该抓取的网站定制,并且会做(好的)爬虫不会做的事情,即:

不要考虑 robots.txt 将自己标识为浏览器 提交带有数据的表单 执行 javascript(如果需要 像用户一样行事)

【讨论】:

@Ben 你知道我在哪里可以找到更多关于网络爬虫如何将自己识别为浏览器的信息吗?***说“实现低级超文本传输​​协议 (HTTP)”,但我真的很想知道它是如何工作的。 @Abdul 在 HTTP 请求中,您可以指定一个“User-Agent”属性来标识自己。例如,如果您将其设置为“Mozilla/5.0 ... Chrome”或 Chrome 使用的其他内容,您的抓取工具看起来就像服务器的浏览器。【参考方案3】:

是的,它们是不同的。在实践中,您可能需要同时使用两者。

(我必须加入,因为到目前为止,其他答案还没有触及它的本质。他们使用示例但没有明确区分。当然,它们来自 2010 年!)

Web 抓取,使用最小定义,是处理 Web 文档并从中提取信息的过程。您可以在不进行网络抓取的情况下进行网络抓取。

Web 抓取,使用最小定义,是从种子 URL 列表开始迭代地查找和获取 Web 链接的过程。严格来说,要进行网页抓取,您必须进行一定程度的网页抓取(以提取 URL。)

为了澄清其他答案中提到的一些概念:

robots.txt 旨在应用于访问网页的任何自动化过程。所以它适用于爬虫和爬虫。

“正确”的爬虫和抓取工具都应该准确地识别自己。

一些参考资料:

Wikipedia on web scraping Wikipedia on web crawlers Wikipedia on robots.txt

【讨论】:

【参考方案4】:

这两者之间肯定有区别。一个是指访问一个站点,另一个是指提取。

【讨论】:

您也可以尝试提供更多信息...一定会有所帮助...【参考方案5】:

这两者之间有根本的区别。 对于那些想要深入挖掘的人,我建议你阅读这个 - Web scraper, Web Crawler

这篇文章详细介绍。这篇文章的图表中有一个很好的总结:

【讨论】:

请注意 link-only answers 是不鼓励的,所以答案应该是寻找解决方案的终点(相对于另一个参考中途停留,随着时间的推移往往会变得陈旧)。请考虑在此处添加独立的概要,并保留链接作为参考。 嘿@Mohit 链接已损坏...任何其他来源【参考方案6】:

我们抓取网站是为了了解网站的结构、页面之间的联系是什么,以估计我们需要多少时间来访问我们感兴趣的所有页面。抓取通常更难实施,但它是数据提取。让我们把刮擦想象成用一张剪掉一些矩形的纸覆盖网站。我们现在可以只看到我们需要的东西,完全忽略所有页面共有的网站部分(如导航、页脚、广告),或者像 cmets 或面包屑这样的无关信息。 更多关于抓取和报废之间的区别,您可以在这里找到:https://tarantoola.io/web-scraping-vs-web-crawling/

【讨论】:

以上是关于网络抓取和网络抓取有啥区别? [复制]的主要内容,如果未能解决你的问题,请参考以下文章

如何从网络抓取创建熊猫数据框?

Python与爬虫有啥关系?

尝试使用 BeautifulSoup 从我的代码中使用 Xpath 进行网络抓取 [重复]

无线调试有啥好的工具,可以看到各种数据包?空口抓包怎么弄?

大数据爬虫技术有啥功能

FormUrlEncodedContent 和查询字符串有啥区别?