python 爬虫
Posted coderly
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 爬虫相关的知识,希望对你有一定的参考价值。
一、爬虫定义
网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就
是URL。
我们输入的url由三部分组成:
(1)protocol:第一部分就是协议,例如百度使用的就是https协议;
(2)hostname[:port]:第二部分就是主机名(还有端口号为可选参数),一般网站默认的端口号为80,例如百度的主机名就是www.baidu.com,这个就是服务器的地址;
(3)path:第三部分就是主机资源的具体地址,如目录和文件名等。
网络爬虫就是根据这个URL来获取网页信息的。
二、步骤
(1)获取HTML页面,注意获取的HTML编码格式。我在其中install了 chardet,用于获取要解析页面的编码格式。
response = request.urlopen("http://xxxxx")
html = response.read()
chardet = chardet.detect(html)
print(charset)
html = html.decode("utf-8")
(2)解析html。
使用BeautifulSoup:构建一个 BeautifulSoup 对象需要两个参数,第一个参数是将要解析的 HTML 文本字符串,第二个参数告诉 BeautifulSoup 使用哪个解析器来解析 HTML。
”html.parser” 是Python内置的解析器
soup = BeautifulSoup(html,"html.parser")
print(soup.title.string )
print(soup.p.string)
以上是关于python 爬虫的主要内容,如果未能解决你的问题,请参考以下文章
Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段