用urllib库几行代码实现最简单爬虫
Posted gshelldon
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用urllib库几行代码实现最简单爬虫相关的知识,希望对你有一定的参考价值。
"""
使用urllib.request()请求一个网页内容,并且把内容打印出来。
"""
from urllib import request
import chardet
if __name__ == ‘__main__‘:
# 有的网站url使用不了
url = "https://www.cnblogs.com/gshelldon/p/13332798.html"
# 打开url把内容赋值给rsp
rsp = request.urlopen(url)
# 存取到内存当中是bytes流,使用read方法把rsp的内容读取出来,赋值给变量html。
html = rsp.read()
# 使用decode解码成我们能够看懂的格式。
# print(type(html)) # 查看返回的格式
html = html.decode(‘utf-8‘) # 默认的是utf-8
print(html)
?```python
返回的内容是html格式的文本
D:ProgramDataAnaconda3envsspiderpython.exe D:/爬虫/v1-最简单的爬虫.py
<!DOCTYPE html>
<html lang="zh-cn">
<head>
<meta charset="utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<meta name="referrer" content="origin" />
<meta property="og:description" content="nginx 动静分离 不需要运维来做,开发做的。 动态请求:该请求会调用数据库中的数据。 静态请求:用户请求不会调用数据库。 动态页面:后端开发写的需要调用数据库的页面(python、java、C、p" />
<meta http-equiv="Cache-Control" content="no-transform" />
省略。。。。。。。
以上是关于用urllib库几行代码实现最简单爬虫的主要内容,如果未能解决你的问题,请参考以下文章
Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段