数据之路 - Python爬虫 - PyQuery库
Posted iceredtea
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据之路 - Python爬虫 - PyQuery库相关的知识,希望对你有一定的参考价值。
一、什么是PyQuery?
PyQuery库也是一个非常强大又灵活的网页解析库。
官网地址:http://pyquery.readthedocs.io/en/latest/
二、PyQuery基本库使用
html = ‘‘‘ <div> <ul> <li class="item-0">first item<lli> <li class="item-1"><a href="link2.html">second item</a><lli> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class ="item-1 active"><a href="link4 . html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a></li> </ul> </div> ‘‘‘
1.初始化
# 字符串初始化 from pyquery import PyQuery as pq html = "" doc = pd(html) print(doc(‘li‘)) # URL初始化 from pyquery import PyQuery as pq html = "" doc = pq(url=‘ https://cuiqingcai.com’) print(doc(’title‘)) # 文件初始化 from pyquery import PyQuery as pq html = "" doc = pq(filename=’demo.html’) print(doc(’li’))
2.CSS选择器-获取标签
from pyquery import PyQuery as pq doc = pd(html) # 子元素 items = doc(‘.list‘) lis = items.find(‘li‘) lis = items.children() lis = items.children(‘.active‘) print(lis) # 父元素 items = doc(‘.list‘) container =items.parents() print(container) parent = items.parents(‘.wrap‘) print(parent) # 兄弟元素 li = doc(‘.list.item-0.active‘) print(li.siblings()) print(li.siblings(‘.active‘))
3.CSS选择器-获取属性
from pyquery import PyQuery as pq doc = pd(html) a = doc(‘.item-0.active a‘) print(a) print(a.attr.href) print(a.attr(‘href‘)
4.获取内容
from pyquery import PyQuery as pq doc = pd(html) a = doc(‘.item-0.active a‘) print(a) print(a.text())
5.获取HTML
from pyquery import PyQuery as pq doc = pd(html) li = doc(‘.item-0.active‘) print(li) print(li.html())
以上是关于数据之路 - Python爬虫 - PyQuery库的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫应用实战案例-pyquery在爬虫中的应用,爬取猫眼电影数据