BeautifulSoup 爬虫

Posted 石头剪子布

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了BeautifulSoup 爬虫相关的知识,希望对你有一定的参考价值。

一 安装BeautifulSoup

安装Python的包管理器pip 然后运行

$pip3 install beautifulsoup

在终端里导入它测试下是否安装成功

>>>from bs import BeautifulSoup 

如果没有错误,说明导入成功了

简单例子 http://sc.chinaz.com/biaoqing/baozou.html 爬取图片

代码如下

from urllib.request import urlopen
from urllib.error import HTTPError,URLError
from bs4 import BeautifulSoup
import re
import warnings
warnings.filterwarnings("ignore")
def getTitle(url):
list =[];
try:
html=urlopen(url);
except (HTTPError,URLError) as e:
return None;
try:
bsObj = BeautifulSoup(html)
a=bsObj.findAll("img",{"src":re.compile("http:\\/\\/.*jpg|png|jpeg|tiff|raw|bmp|gig")});
for i in a:
if i[\'src\']!="":
list.append(i[\'src\']);
except AttributeError as e:
return None;

return list;
# a=getTitle(url)
# print(a)

def getHread(is_urls):
list=[];
try:
html = urlopen(is_urls);
except (HTTPError, URLError) as e:
return None;
try:
bsObj = BeautifulSoup(html)
tables=bsObj.findAll("a")

for i in tables:
if "href" in i.attrs:
list.append(i.attrs[\'href\']);

#print(getTitle(i.attrs[\'href\']));
temp=set(list);
for d in temp:
print(getTitle(d));
except AttributeError as e:
return None;
#return list;
is_ulrs="http://sc.chinaz.com/biaoqing/baozou.html";
a=getHread(is_ulrs)
print(a)
##################运行结果******************************
没有具体需求 只是简单的例子 只是处理了重复返回的图片用到set集合 运行的速度有点慢 没有时间优化 等有时间一定好好写写。

 

以上是关于BeautifulSoup 爬虫的主要内容,如果未能解决你的问题,请参考以下文章

python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例

Python 爬虫-BeautifulSoup

python爬虫之beautifulsoup的使用

Python爬虫:想听榜单歌曲?使用BeautifulSoup库只需要14行代码即可搞定

Python爬虫:想听榜单歌曲?使用BeautifulSoup库只需要14行代码即可搞定

python爬虫(十九)BeautifulSoup4库