谷歌爬虫开发

Posted lanyueff

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了谷歌爬虫开发相关的知识,希望对你有一定的参考价值。

文档: 360应用开发文档

 

优化点:

1.

在chrome extension 的开发过程中,经常会遇到页面内包含iframe框架的情况,这个时候如果框架和顶层页面不同源,content_script是无法访问框架的内容的,这收到js跨域的限制. 解决方法其实很简单.经过查看官方的文档,我们可以看到,其实官方早就给出了答案,那就是在manifest.json文件中修改你的content_script字段,加入以下内容:

"all_frames": true

content_script在所有框架内加载,不单单只在顶层框架中运行. 改好了以后类似下面这个样子:

  "content_scripts": [
  "css": [style.css],
  "js": [
    "contentScript.js"
  ],
  "matches": [
    "http://*/*"
  ],
  "all_frames": true,
  "run_at": "document_end"
]

这样就会使脚本注入所有框架内了,包括顶层的页面.

以上是关于谷歌爬虫开发的主要内容,如果未能解决你的问题,请参考以下文章

爬虫实例——爬取淘女郎的相册(通过谷歌浏览器的开发者工具找出规律快速爬取)

Python开发简单爬虫之静态网页抓取篇:爬取“豆瓣电影 Top 250”电影数据

百度爬虫用啥语言

Puppeteer之爬虫入门

Puppeteer之爬虫入门

01-Python 零基础入门爬虫 图片爬取