谷歌爬虫开发
Posted lanyueff
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了谷歌爬虫开发相关的知识,希望对你有一定的参考价值。
文档: 360应用开发文档
优化点:
1.
在chrome extension 的开发过程中,经常会遇到页面内包含iframe框架的情况,这个时候如果框架和顶层页面不同源,content_script是无法访问框架的内容的,这收到js跨域的限制. 解决方法其实很简单.经过查看官方的文档,我们可以看到,其实官方早就给出了答案,那就是在manifest.json文件中修改你的content_script字段,加入以下内容:
"all_frames": true
|
content_script在所有框架内加载,不单单只在顶层框架中运行. 改好了以后类似下面这个样子:
"content_scripts": [ "css": [style.css], "js": [ "contentScript.js" ], "matches": [ "http://*/*" ], "all_frames": true, "run_at": "document_end" ]
这样就会使脚本注入所有框架内了,包括顶层的页面.
以上是关于谷歌爬虫开发的主要内容,如果未能解决你的问题,请参考以下文章
爬虫实例——爬取淘女郎的相册(通过谷歌浏览器的开发者工具找出规律快速爬取)