python网络数据采集(伴奏曲)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python网络数据采集(伴奏曲)相关的知识,希望对你有一定的参考价值。

这里是前章,我们做一下预备。之前太多事情没能写博客~。。             (此博客只适合python3x,python2x请自行更改代码)

首先你要有bs4模块

windows下安装:pip3 install bs4,如果你电脑有python2x和python3x的话,在python3x中安装bs4请已管理员的身份运行cmd执行pip3 install bs4安装bs4。

linux下安装:sudo pip3 install bs4

还有urllib.request模块

windows下安装:pip3 install urllib.request,如果你电脑有python2x和python3x的话,在python3x中安装bs4请已管理员的身份运行cmd执行pip3 install urllib.request安装urllib.request模块

 

例子1:获取源码

from urllib.request import urlopen

from bs4 import BeautifulSoup

html=urlopen("http://wikipedia.org")

dgc=BeautifulSoup(html)

print(dgc)

输出图如下:

技术分享

这里我忘记加自定义错误了,当然你也可以不加。保险起见还是加

 例子二:匹配对应的标签

 

from urllib.request import urlopen

from bs4 import BeautifulSoup
try:
html=urlopen("http://dlszx.dgjy.net/")
except EOFError as a:
print("404 ")
except:
print("404")
dgc=BeautifulSoup(html)
fbc=dgc.findAll("img",{"src":"uploadfile/201762105219962.jpg"})
print(fbc)

技术分享

例子3:正则匹配所有对应的标签

不会正则的请去学习

from urllib.request import urlopen
import re
from bs4 import BeautifulSoup
try:
html=urlopen("http://dlszx.dgjy.net/")
except EOFError as a:
print("404 ")
except:
print("404")
dgc=BeautifulSoup(html)
fbc=dgc.findAll("img",{"src":re.compile("img/.*?\\.jpg")})
for inks in fbc:
print(inks)
注意事项!!!:不要拿findAll去搜索引擎匹配,乱的你想死
搜索引擎正则匹配要求很高:http:\\/\\/[a-zA-z].*?\\[a-z]

技术分享

例子4:

匹配网站所有的链接


from urllib.request import urlopen
import re
from bs4 import BeautifulSoup
try:
html=urlopen("http://wikipeda.org")
except EOFError as a:
print("EOFError")
except:
print("I dont EOFError")
gfc=BeautifulSoup(html)
for inks in gfc.findAll("a")
if ‘href‘ in inks.attrs:
print("inks.attrs["href"]")
技术分享
现在的时间是
2017-8-13-13:38







































以上是关于python网络数据采集(伴奏曲)的主要内容,如果未能解决你的问题,请参考以下文章

【小项目-1】用Python进行人声伴奏分离和音乐特征提取

《全国钢琴演奏考级作品集(新编第一版) 》1-10级曲目

SpleeterGUI v2.6 开源的AI人声伴奏分离工具

python 用于数据探索的Python代码片段(例如,在数据科学项目中)

python selenium片段+网络驱动程序

雪佛兰SPARK广告曲是啥?