使用网址的爬虫[关闭]

Posted 2023-02-23

技术标签:

【中文标题】使用网址的爬虫[关闭]【英文标题】：crawler by using urls [closed] 【发布时间】：2012-02-09 15:41:00 【问题描述】：

大家好，我需要使用 python（我的 python 版本是 2.6.6）仅使用 url 来爬取座位。

首先我需要打开此链接(http://www.google.com/) 并抓取，我应该收集此页面中存在的所有 http 链接；其次，从收集的http链接中，我应该去每个链接，通过这个链接我需要打开并执行爬取过程，并且应该将爬取的链接保存在一个单独的文件夹中。我只是在尝试这种方式，如果有人知道解决方案请回复我需要你的帮助..

【问题讨论】：

【参考方案1】：

Step1：使用urllib or urllib2python库，访问你的页面。

第 2 步：使用任何 xml/html 解析器（如 lxml 或 Beautiful Soup）从您的网页中获取所有链接。

步骤 3：现在再次将这些链接传递给 urllib 或 urllib2 并保存您的网页。

你也可以试试Scrapy或Mechanize。

这里是使用xpath expressions with lxml 的示例。您可以使用 firebug 获取任何元素的 xpath。

import lxml
from lxml import etree
import urllib2

response = urllib2.urlopen('your url')
html = response.read()
link = etree.HTML(html)
links = link.xpath('xpath expr')

【讨论】：

感谢您的回复.. 我为第一步收集了所有的 http 链接，但是我无法点击每一个链接并从其中收集我的爬取这个过程是针对许多链接... 好的。直到unable to click each and every link 我才明白，但之后有点不清楚告诉我你面临的确切问题。我的问题是为每个我需要点击它的链接使用收集的链接，我需要转到下一页并抓取该页面，我无法点击我被收集的链接

以上是关于使用网址的爬虫[关闭]的主要内容，如果未能解决你的问题，请参考以下文章