爬虫抓取表格中的数据
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫抓取表格中的数据相关的知识,希望对你有一定的参考价值。
有时候因为某些需求需要爬取某个网页中某个表格里的数据,这时候如果这个页面只有这一个表格的时候,那么抓取就比较容易了,但是当这个页面中有大量的表格的时候,再使用之前的方法,就会发现虽然也能抓取到要的数据,但是还有一大堆冗余。
这时候,就可以使用下面这种方法
就以这个网页里的表格为例
#coding:utf-8 import re import urllib2 url=‘http://58921.com/‘ header={‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/60.0.3112.90 Safari/537.36‘} request=urllib2.Request(url,headers=header) page_code=urllib2.urlopen(request).read() # 从网页源码中找到你要抓取表格的下列信息 # 表格开头 start_code=‘<table class="table table table-bordered table-condensed">‘ # 表格结尾 end_code=‘</tbody>‘ # 表格中要抓取的数据 find_code=‘<td><a href=".*?" title=".*?">(.*?)</a></td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td>‘ # 这里通过 start和end指定在整个页面中你所寻找的表格 start=page_code.find(start_code) end=page_code.find(end_code) find=page_code[start:end] final_find=re.findall(find_code,find) for x in final_find: print ‘,‘.join(x) print ‘finish‘
以上是关于爬虫抓取表格中的数据的主要内容,如果未能解决你的问题,请参考以下文章
python爬虫 将在线html网页中的图片链接替换成本地链接并将html文件下载到本地