第三课之Spider(翻译单词)

Posted ironmind

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第三课之Spider(翻译单词)相关的知识,希望对你有一定的参考价值。

第三课 - 模块Spider

把英文单词翻译成中文试试看,看不懂的选项,都翻译

Spider选项卡里的Application Login一栏:碰到表单怎么做?改成Automatically submit these credentials(自动提交这些凭证):用户名和密码写一个默认的都是admin

技术图片

Spider Status:爬取的状态

requests made 提出的请求

bytes transferred 传送的字节数

requests queued 请求队列

forms queued 队列形式

火狐浏览器,点击选项,点击常规,划到最后,点击网络设置,选择不使用代理,火狐浏览器就可正常访问


下面再来实践一次:爬行网址www.jwc.jyu.edu.cn/,网站选取的不好,下面就当回顾复习一下流程
1、
技术图片

2、
技术图片

3、
技术图片

4、
技术图片

5、再去Target查看前,先设置下Filter显示选项,第二课里有要设置哪些。爬出来的东西啥也没有

技术图片


Spider选项的一些设置:

技术图片

Number of threads(线程的数量):爬取小网站,2或3即可,大的网站,设置成10,非常大,传输速度快的网站。设置成100






以上是关于第三课之Spider(翻译单词)的主要内容,如果未能解决你的问题,请参考以下文章

04-第四课之Scanner

spider是Python的第三方库吗

Spider爬虫

Spider实战系列-抓取《一人之下第三季》

Python spider Requests && Lxml && bs4

Python spider Requests && Lxml && bs4