python3爬虫初探
Posted 不秩稚童
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python3爬虫初探相关的知识,希望对你有一定的参考价值。
---恢复内容开始---
#小白一个,在此写下自己的python爬虫初步的知识.如有错误,希望谅解并指出。
#欢迎和大家交流python爬虫相关的问题
#2016/6/18
#----第一把武器-----urllib.request---------
urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码。话不多说,上代码。
import urllib.request #调入要使用的库 url = ‘http://www.baidu.com‘ data = urllib.request.urlopen(url) #urlopen用来打开一个网页 data = data.read() #这里的rend()是必须的,否则不能打印源码。 print(data) #在python3里面print是要加括号的
#b‘<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/
#这是部分源码,现在已经成功走出第一步了,之后就是解析网页了。
以上是关于python3爬虫初探的主要内容,如果未能解决你的问题,请参考以下文章