使用Urllib爬虫--简单的将数据爬到内存或硬盘中

Posted u-damowang1

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用Urllib爬虫--简单的将数据爬到内存或硬盘中相关的知识,希望对你有一定的参考价值。

  • 将数据爬取到内存中
    • import urllib
      import urllib.request
      import re
      #打开京东网页并且进行读取,解码格式utf-8,ignore小细节自动略过,大大减少出错率
      #将数据爬到内存中
      #http://www.jd.com
      url = "http://www.jd.com"
      data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
      pat = "<title>(.*?)</title>"
      #re.S模式修正符,网页数据往往是多行的,避免多行的影响
      print(re.compile(pat,re.S).findall(data))
  • 将数据爬取到硬盘中
    • import urllib
      import urllib.request
      import re
      url = "http://www.jd.com"
      #urlretrieve(网址,文件名filename),由于有转义的作用所以改用为/或者\\
      res = urllib.request.urlretrieve(url,filename="D:\\pythonstudy\\pachong\\jd1.html")
      print(res)

       

    • 技术图片技术图片

       

以上是关于使用Urllib爬虫--简单的将数据爬到内存或硬盘中的主要内容,如果未能解决你的问题,请参考以下文章

如何用Python爬取数据?

python2.7导入mysqldb

python爬虫——对爬到的数据进行清洗的一些姿势

使用node的http模块实现爬虫功能,并把爬到的数据存入mongondb

从urllib和urllib2基础到一个简单抓取网页图片的小爬虫

urllib爬虫(流程+案例)