程序人生 - 不要触犯法律,编写安全爬虫的几点建议

Posted 程序员牧码

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了程序人生 - 不要触犯法律,编写安全爬虫的几点建议相关的知识,希望对你有一定的参考价值。

写爬虫的小伙伴要注意,爬虫一时爽,但不是一直爬一直爽

如果你的爬虫触犯了法律,可是要承担责任的哦,那么什么样的爬虫才算是安全的爬虫呢?

法律条文,咱也研究不明白,结合实际情况,给几点建议吧

1、爬虫访问频次要控制,别把对方服务器搞崩溃了

虽然你爬取的信息都是公开的,也不涉及公民隐私,爬取的数据也不用于违法获利,只是自己弄着玩,但是如果你的爬虫太疯狂了,一分钟请求1万次,导致对方服务器应接不暇,不能处理正常业务了,对不起,你这种属于违法行为,这种爬虫等同于进行黑客攻击了,你让人家不能正常工作了,损害了对方的利益

2、 涉及到个人隐私的信息你不能爬

其实这很好理解,你希望你自己的电话号,身份证号,家庭住址,工作单位,行踪轨迹这些隐私信息被别人用爬虫抓取么?当然不希望,别人抓了你的这些信息,你肯定想去报警对不对,让警察去抓那个坏蛋,ok,你不要去做那个坏蛋。

3、 突破网站的反爬措施,后果很严重

正规的网站都会在根目录下放置 robots.txt,这里就规定了哪些能爬,哪些不能爬,谁可以爬,比如知乎的robots.txt

人家希望搜索引擎来爬它,其他的,一概不接受

User-Agent: *
Disallow: /

不过呢,知乎并没有做特别严厉的反爬措施,这就是说,如果你偷偷的爬一点东西,不影响它的正常服务,它也懒得找你麻烦,但对于那种反爬特别严重的,例如淘宝,你最好别去爬,如果你真的利用你的高智商突破了淘宝的反爬措施,那么恭喜你,你已经违法了

4、 不要用爬取的数据做不正当竞争

比如你把大众点评的评论数据都爬下来了,然后自己搞了一个xx点评,这肯定不行,人家辛辛苦苦的积累的数据,你轻轻松松的弄下来,直接拿来主义,跟人家搞竞争,你不违法谁违法。

5、 付费内容,你不要抓

既然是付费内容,说明这东西价值很高,付费才能看,你弄下来了,你想干啥?你私自传播,就对网站造成了潜在损失。

6、最后一条,突破网站反爬措施的代码,最好不要上传到网上

你技术很牛逼,能突破网站的反爬措施,你把这些代码发布到网上,比如github,你自己没做啥坏事,可是想做坏事的人利用了你的代码,入侵了网站,那么,这种情况下,你也是有责任的,这个听起来有点冤,但确实存在这样的风险,所以,最好还是不要这么干。

以上是关于程序人生 - 不要触犯法律,编写安全爬虫的几点建议的主要内容,如果未能解决你的问题,请参考以下文章

互联网上的任何东西都可以爬取吗?

震惊!编写“爬虫”,怎么“面向监狱编程”了?

关于C#异步编程你应该了解的几点建议

爬虫相关法律知识

有效提高ThinkPHP的应用性能的几点建议

Java内存优化和性能优化的几点建议