爬虫简单基础代码

Posted creative-work

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫简单基础代码相关的知识,希望对你有一定的参考价值。

以下代码可以去掉注释单独运行:

 1 import urllib.request
 2 
 3 url = http://www.jianshu.com/
 4 response = urllib.request.urlopen(url=url) #第一个参数是要打开的url 第二个是data表示post请求时 使用的 print(type(response))\
 5 #   #返回的是一个HTTPResponse对象
 6 # print(response.read())   #读取了所有网页的内容 包括换行符和制表符,获取的二进制数据
 7 # print(response.read().decode(‘utf-8‘)) #解码后进行输出  #字符串-》字节:编码  encode()  字节-》字符串:解码  decode()
 8 # print(response.readline())  #读取一行
 9 # print(response.readlines())  #读取全部返回一个列表
10 # print(response.getheaders())  #返回一个响应头信息,列表里面有元组
11 # urllib.request.urlretrieve(url=url,filename=‘baidu.html‘) #将文件下载到本地并命名,可以下载网页 图片 视频等
12 # urllib.parse #处理url的urllib.parse.urlencode 介绍post请求的时候再说这个函数
13 print(response.getheaders())
14 #编码:因为浏览器并不能识别你请求里面的中文字符
15 # 编码
16 # string = urllib.parse.quote(‘http://www.baidu.com?username=狗蛋&password=123‘)
17 # print(string)
18 #解码
19 # string = urllib.parse.unquote(‘http%3A//www.baidu.com%3Fusername%3D%E7%8B%97%E8%9B%8B%26password%3D123‘)
20 # print(string)

 

以上是关于爬虫简单基础代码的主要内容,如果未能解决你的问题,请参考以下文章

scrapy主动退出爬虫的代码片段(python3)

python爬虫零基础入门——反爬的简单说明

零基础简单爬虫制作(以wjyt-china企业黄页爬虫为例)(上)

Python网络爬虫学习手记——爬虫基础

用python零基础写爬虫--编写第一个网络爬虫

爬虫基础库