「python爬虫保姆级教学」urllib的使用以及页面解析
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了「python爬虫保姆级教学」urllib的使用以及页面解析相关的知识,希望对你有一定的参考价值。
参考技术A 使用urllib来获取百度首页的源码get请求参数,如果是中文,需要对中文进行编码,如下面这样,如果不编码会报错。
urlencode应用场景:多个参数的时候。如下
为什么要学习handler?
为什么需要代理?因为有的网站是禁止爬虫的,如果用真实的ip去爬虫,容易被封掉。
2.解析技术
1.安装lxml库
2.导入lxml.etree
3.etree.parse() 解析本地文件
4.etree.html() 服务器响应文件
5.解析获取DOM元素
1.路径查询
2.谓词查询
3.属性查询
4.模糊查询
5.内容查询
6.逻辑运算
示例:
JsonPath只能解析本地文件。
pip安装:
jsonpath的使用:
示例:
解析上面的json数据
缺点:效率没有lxml的效率高
优点:接口设计人性化,使用方便
pip install bs4 -i https://pypi.douban.com/simple
from bs4 import BeautifulSoup
1.根据标签名查找节点
soup.a.attrs
2.函数
find(‘a’):只找到第一个a标签
find(‘a’, title=‘名字’)
find(‘a’, class_=‘名字’)
find_all(‘a’) :查找到所有的a
find_all([‘a’, ‘span’]) 返回所有的a和span
find_all(‘a’, limit=2) 只找前两个a
obj.string
obj.get_text()【推荐】
tag.name:获取标签名
tag.attrs:将属性值作为一个字典返回
obj.attrs.get(‘title’)【常用】
obj.get(‘title’)
obj[‘title’]
示例:
使用BeautifulSoup解析上面的html
python爬虫-35-scrapy实操入门,一文带你入门,保姆级教程
参考技术A 如果在 windows 系统下,提示这个错误 ModuleNotFoundError: No module named 'win32api' ,那么使用以下命令可以解决: pip install pypiwin32 。示例如下:
命令:
示例如下:
创建完毕之后可以看下具体创建了什么文件;
我们使用 pycharm 打开看下;
scrapy 爬虫项目中每个文件的作用如下:
------ “运维家” ------
------ “运维家” ------
------ “运维家” ------
linux系统下,mknodlinux,linux目录写权限,大白菜能安装linux吗,linux系统创建文件的方法,领克linux系统怎么装软件,linux文本定位;
ocr识别linux,linux锚定词尾,linux系统使用记录,u盘有linux镜像文件,应届生不会Linux,linux内核64位,linux自启动管理服务;
linux计算文件夹大小,linux设备名称有哪些,linux能用的虚拟机吗,linux系统进入不了命令行,如何创建kalilinux,linux跟so文件一样吗。
以上是关于「python爬虫保姆级教学」urllib的使用以及页面解析的主要内容,如果未能解决你的问题,请参考以下文章