python3爬取网页

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python3爬取网页相关的知识,希望对你有一定的参考价值。

爬虫
python3爬取网页资源方式(1.最简单:
    1. import‘http://www.baidu.com/‘print2.通过request
      1. import‘http://www.baidu.com‘print1.import urllib.request
        ‘wd‘‘python‘‘opt-webpage‘‘on‘‘ie‘‘gbk‘GET和POST请求的不同之处是POST请求通常有"副作用"
         
         
        ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)‘‘User-Agent‘
        import urllib.request
        from urllib.error import URLError ,HTTPError
        req=urllib.request.Request(‘http://www.baidu.com‘)
        try:urllib.request.urlopen(req)
        except URLError as e:
        print(e.reason)
        HTTPError 
         
        1.Openers:
        2.Handles:
         
         
        import urllib.request
        password_mgr=urllib.request.HTTPPasswordMgrWithDefaultRealm()
        top_level_url="http://example.com/foo/"
        password_mgr.add_password(None,top_level_url,‘why‘,‘1223‘)
        handler=urllib.request.HTTPBasicAuthHandler(password_mgr)
        opener=urllib.request.build_opener(handler)
        a_url=‘http://www.baidu.com/‘
        opener.open(a_url)
        urllib.request.install_opener(opener)
        后者包含了端口号。

以上是关于python3爬取网页的主要内容,如果未能解决你的问题,请参考以下文章

python3 怎样爬取动态加载的网页信息

python3.7---爬取网页图片

python3爬取网页图片路径并写入文件

Python3——爬取淘宝评论

python3下爬取网页上的图片的爬虫程序

python3下scrapy爬虫(第八卷:循环爬取网页多页数据)