爬虫获取主页信息并修改报头

Posted Zeker62

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫获取主页信息并修改报头相关的知识,希望对你有一定的参考价值。

先上代码

import urllib.request

class Gethtml(object):
    def __init__(self,URL,HEAD):
        self.url=URL
        self.head=HEAD

    def get_index(self):
        self.request=urllib.request.Request(self.url)
        self.request.add_header("user-agent",self.head)
        self.response=urllib.request.urlopen(self.request)
        return self.response.read()



html=GetHtml("http://192.168.2.133/fake","Mozilla/5.0 (Windows NT 8.1; Win32; x86) \\
    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62");

print(html.get_index())

解释

  • 我创造了一个192.168.2.133/fake的假网站专门用作爬虫
  • urllib.request 是以浏览器的方式请求url响应的包
  • 创建GetHtml类,构造函数分别有:获取主页url和报头
  • get_index方法是初始化
  • 首先使用包下的Request方法请求到url
  • 其次在request的前面添加我们的报头,报头的前面还要加上user-agent
  • 然后我们在响应里使用urlopen将响应的内容赋值
  • 最后返回我们的响应数值

以上是关于爬虫获取主页信息并修改报头的主要内容,如果未能解决你的问题,请参考以下文章

爬虫数据抓包获取指定CSDN博主的全部文章信息

爬虫大作业

Python爬虫3-----浏览器伪装

scrapy按顺序启动多个爬虫代码片段(python3)

6-16

用python爬虫爬取携程网国内租车怎么获取所在地址的车辆信息、价格还有评分并安型号分类提取出来?