Python3 BeautifulSoup和Pyquery解析库随笔
Posted StrivePy
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python3 BeautifulSoup和Pyquery解析库随笔相关的知识,希望对你有一定的参考价值。
BeautifuSoup和Pyquery解析库方法比较
1.对象初始化:
- BeautifySoup库:
1 from bs4 import BeautifulSoup 2 3 html = ‘html string......‘ 4 soup = BeautifulSoup(html, ‘lxml‘)
- Pyquery库:
1 from pyquery import PyQuery as pq 2 3 # 以字符串初始化 4 html = ‘html string...‘ 5 doc = pq(html) 6 # 以url初始化 7 doc = pq(url=‘https://....‘) 8 # 以文件初始化 9 doc = pq(filename=‘XXX.html‘)
2. 节点属性获取:
- BeautifuSoup库:
1 # 在根据节点选择器、方法选择器或者CSS选择器,选择出节点(例如:li)后,两种方法获取属性值 2 value = li[‘attr_name‘] 3 value = li.attrs[‘attr_name‘]
- Pyquery库:
1 # 在根据CSS选择器定位到节点(例如li)后,两种方法获取属性值 2 value = li.attr.attr_name 3 value = li.attr(‘attr_name‘)
3. 文本内容获取:
- BeautifulSoup库:
# 在根据节点选择器、方法选择器或者CSS选择器,选择出节点(例如:li)后,两种方法获取属性值 text = li.string text = li.get_text()
- Pyquery库:
1 # 在根据CSS选择器定位到节点(例如li)后 2 text = li.text()
以上是关于Python3 BeautifulSoup和Pyquery解析库随笔的主要内容,如果未能解决你的问题,请参考以下文章
python3 爬虫(urllib+beautifulsoup)beautifulsoup自动检测编码错误