Python爬取异步加载的网站selenium+PhantomJS
Posted 一语中的
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬取异步加载的网站selenium+PhantomJS相关的知识,希望对你有一定的参考价值。
一个网站的爬虫脚本,在调试的时候发现问题:
脚本跑:content-type用text/xml 可以post成功,但post中body的内容没有生效,所有的响应都是当前日期;用application,post不成功(即没有返回数据)
工具发:content-type用text/xml 可以post成功,但post中body的内容没有生效,所有的响应都是当前日期;用application,post成功且body中日期修改有效
即用脚本根本就没有收到返回的数据,但是用工具fiddler或者Burpsuite都可以正常的使用查看包的内容,很奇怪。直到后来才发现,原来我爬的这个网站是动态的==
动态网页(参考百度百科:https://baike.baidu.com/item/%E5%8A%A8%E6%80%81%E7%BD%91%E9%A1%B5/6327050)
页面查元素,先切换frame到id=\'g_iframe\'
播放量nb及对应的标题和链接
mysongList1000.xls结果截图
灵感来源:http://www.cnblogs.com/tuohai666/p/8718107.html
以上是关于Python爬取异步加载的网站selenium+PhantomJS的主要内容,如果未能解决你的问题,请参考以下文章
python获取动态网站上面的动态加载的数据(selenium+Firefox)
Python爬虫小白---爬虫基础--Selenium PhantomJS
python+selenium+PhantomJS爬取网页动态加载内容
Python爬虫初探 - selenium+beautifulsoup4+chromedriver爬取需要登录的网页信息