[python 2.7抓取网页]如何抓取.js里面的内容(下拉框里面的中文字符列表)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[python 2.7抓取网页]如何抓取.js里面的内容(下拉框里面的中文字符列表)相关的知识,希望对你有一定的参考价值。

目标页面:
http://www.zhihu.com/question/21352003#answer-2330365
疑问:
如何遍历“20评论”里面评论?

说明:希望可以用python编写出一个代码,自动地发出请求,然后从请求之中得到这些评论。而不是手动地找出评论的地址,然后现下载评论。

参考技术A 通过抓包可以知道评论的获取地址是
http://www.zhihu.com/node/AnswerCommentBoxV2?params="answer_id":"2330365","load_all":false

其中params实际上是一段json,变化的就是 anwser_id而已, 而answer_id从你给出的网页可知
py发请求传不同的id进去抓就好了, 出来的内容是html 正则分析找到结果就行了追问

那python可不可以实现这个抓包的?可不可以加上代码?

001--python全栈--基础知识--python安装

001--python--基础--python安装

001--python--基础--python安装
001--python--基础--python安装
001--python--基础--python安装
001--python--基础--python安装
001--python--基础--python安装
001--python--基础--python安装

  

以上是关于[python 2.7抓取网页]如何抓取.js里面的内容(下拉框里面的中文字符列表)的主要内容,如果未能解决你的问题,请参考以下文章

Python网页抓取 - 当页面通过JS加载内容时如何获取资源?

c#抓取动态网页中的数据

如何用Java抓取网页的具体内容

python怎么抓取渲染后的页面

如何用python爬取js动态生成内容的页面

如何使用 Python 抓取雪球网页