python + Jquery,抓取西东网上的Java教程资源网址
Posted Tarantino
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python + Jquery,抓取西东网上的Java教程资源网址相关的知识,希望对你有一定的参考价值。
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2018-06-15 14:01:45 # @Author : Chenjun ([email protected];) # @Link : http://example.org # @Version : $Id$ from pyquery import PyQuery as pq URL = ‘http://xidong.net/File001/File_25266.html‘ lis = [] def get_resource_lis(URL): doc = pq(url=URL, encoding=‘utf-8‘) #响应头部没有声明编码类型,需要手动说明,否则抓到的数据会中文乱码 datas = doc(‘tr‘) #通过网页检查发现资源放在表格的tr中 resource_lis = datas.items() return lis def main(): resource_lis = get_resource_lis(URL) for source in resource_lis: print(source.find(‘a‘).attr(‘href‘)) #取到每个tr中的a标签的href属性值,也就是我需要的地址
if __name__ == ‘__main__‘: main()
#后续可以存储到非关系型数据库中
以上是关于python + Jquery,抓取西东网上的Java教程资源网址的主要内容,如果未能解决你的问题,请参考以下文章