互联网上的任何东西都可以爬取吗?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了互联网上的任何东西都可以爬取吗?相关的知识,希望对你有一定的参考价值。

写爬虫的小伙伴要注意,爬虫一时爽,但不是一直爬一直爽。
如果你的爬虫触犯了法律,可是要承担责任的哦,那么什么样的爬虫才算是安全的爬虫呢?
现在我来结合一下实际情况,给几点建议吧:
1、爬虫访问频次要控制,别把对方服务器搞崩溃了
虽然你爬取的信息都是公开的,也不涉及公民隐私,爬取的数据也不用于违法获利,只是自己弄着玩,但是如果你的爬虫太疯狂了,一分钟请求1万次,导致对方服务器应接不暇,不能处理正常业务了,对不起,你这种属于违法行为,这种爬虫等同于进行黑客攻击了,你让人家不能正常工作了,损害了对方的利益
2、 涉及到个人隐私的信息你不能爬
其实这很好理解,你希望你自己的电话号,身份证号,家庭住址,工作单位,行踪轨迹这些隐私信息被别人用爬虫抓取么?当然不希望,别人抓了你的这些信息,你肯定想去报警对不对,让警察去抓那个坏蛋,ok,你不要去做那个坏蛋。
3、 突破网站的反爬措施,后果很严重
正规的网站都会在根目录下放置
robots.txt,这里就规定了哪些能爬,哪些不能爬,谁可以爬。对于那种反爬特别严重的,例如淘宝,你最好别去爬,如果你真的利用你的高智商突破了淘宝的反爬措施,那么恭喜你,你已经违法了。
4、 不要用爬取的数据做不正当竞争
比如你把大众点评的评论数据都爬下来了,然后自己搞了一个xx点评,这肯定不行,人家辛辛苦苦的积累的数据,你轻轻松松的弄下来,直接拿来主义,跟人家搞竞争,你不违法谁违法。
5、 付费内容,你不要抓
既然是付费内容,说明这东西价值很高,付费才能看,你弄下来了,你想干啥?你私自传播,就对网站造成了潜在损失。
6、最后一条,突破网站反爬措施的代码,最好不要上传到网上
你技术很牛逼,能突破网站的反爬措施,你把这些代码发布到网上,比如github,你自己没做啥坏事,可是想做坏事的人利用了你的代码,入侵了网站,那么,这种情况下,你也是有责任的,这个听起来有点冤,但确实存在这样的风险,所以,最好还是不要这么干。
参考技术A 不可能的,互联网时代最核心的就是数据的安全性,一般大公司都会有自己的核心数据的,这些数据是不可能让其他公司来爬取的。

如何在网上找到自己想要的东西

基本上每个网民天天都在做的事情可能就是搜索了,作为程序员则用的更多。本文不深入具体的细节,从几个大方向聊一聊怎么在网上找到自己想要的东西,因此这些原则不仅仅对搜索技术资料有用,对一般性的东西如搜索电影、软件等都可以参考。

使用英文资料

除了某些特定的内容,大部分情况下互联网的英文资料都比中文要好,尤其是计算机类的资料,主要有以下几个原因:

  • 中文搜索引擎做得不好,懂得都懂
  • 国内互联网厂商更注重移动端,且相互之间流量隔离(即私域)
  • 大部分计算机技术(编程语言、框架、软件)是国外发明的,原始资料就基于英文,比中文N道贩子质量高

其他原因还有很多,感兴趣可以看看知乎为何中文互联网相对英文互联网的内容质量较低?。如果英文不太好的同学,可以借助一些翻译工具,浏览器翻译插件等,顺便可以提升自己的英语水平。

用好搜索引擎

大部人使用搜索引擎,就是把需要搜索的内容复制粘贴到搜索栏,然后点击搜索。实际上使用搜索引擎也有很多小技巧,这个在网上已经有很多人总结了,推荐看这一篇Google高效搜索的20个技巧。我总结一下大致有这几个方面:

  • 搜索关键词而非语句,尽量去掉无效的关键词
  • 可以使结果必须包含或者不包含哪个关键词,或者必须包含多个关键词
  • 可以搜索特定格式的文件
  • 可以搜索指定网站的内容

关注和收藏

有些内容可能比较冷门,即使用好了搜索也很难找到。这里就需要自己平时多关注和收藏了,说得高大上一点,就是构建自己的知识索引体系。原则上,就是根据自己的专业,把平时看见的各类有价值的内容整合到一起,方便后续查看。方式上,从简单的浏览器书签到类似印象笔记这种多平台同步的工具都可以。
这里举个例子,有时候我需要录制电脑屏幕的软件,但不论是在百度还是Google搜索录屏或者Record Screen,出来的要么是各种付费录屏软件的广告,要么是十几种录屏软件的对比,对于一个只想轻量级使用一下录屏的人来说根本无从选择。直到有一天逛知乎,看到一篇冷门的文章,推荐了一款开源轻量又功能强大的软件完全免费且功能齐全的录屏工具——Captura,一下子就解决了问题。这说明有时候很多优秀的东西不一定是热门和火爆的,深入关注相关领域的内容和做好收藏也很重要。

积极原创

最后的最后,如果你真的发现无论使用什么方法都无法在互联网上找到你要的东西,那意味着你发现了互联网上的一篇空白区!那就尽自己的能力去填补这一片空白吧,无论是写文章发博客,还是发布一个开源程序,可以为后来人做贡献,同时对自己也是一种提升。

以上是关于互联网上的任何东西都可以爬取吗?的主要内容,如果未能解决你的问题,请参考以下文章

如何在网上找到自己想要的东西

动态ip代理软件:只要互联网在,爬虫就存在

Python爬虫爬取数据的步骤

AHK 不理解标签 wb

第一次找工作/实习前需要准备的东西(互联网行业)

通过 Serveo 将局域网服务开放到互联网上