爬虫介绍
Posted moodsfeelings
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫介绍相关的知识,希望对你有一定的参考价值。
爬虫简介:
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。
爬虫处理图效果
1.获取网页
通过上图知道 使用request发送get请求,获取网页的源代码。
import requests respones = requests.get(‘https://www.cnblogs.com/Moodsfeelings/‘) print(r.text)
这里还要安装request库
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
2.用BeautifulSoup解析数据
from bs4 import BeautifulSoup#导入BeautifulSoup soup = BeautifulSoup(r,‘lxml‘)#解析网页数据 pattern = soup.find_all(‘a‘,‘postTitle2‘)#寻找数据 for item in pattern:#用for循环打印 print(item.string)
这里还要用两个库
pip install beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple
3.用txt文档保存数据
with open(‘file.txt‘,‘a‘,encoding = ‘utf-8‘)as f: for item in pattern: f.write(item.string)
那么我们的基本爬虫差不多就完成了,下次再见!
以上是关于爬虫介绍的主要内容,如果未能解决你的问题,请参考以下文章
Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段