「网页爬虫」的强大和危险

Posted 先驱者PRO

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了「网页爬虫」的强大和危险相关的知识,希望对你有一定的参考价值。




网页爬虫


  

「网页爬虫」是一个脚本或程序

可以快速的抓取并保存网页上的信息和内容

也可以称之为「网页蜘蛛」

Web Crawler

「网页爬虫」的强大和危险
「网页爬虫」的强大和危险
「网页爬虫」的强大和危险
「网页爬虫」的强大和危险

1

—The first—



简单介绍


我们可以把网页爬虫想像成一个机器人,可以在页面上抓取指定内容


「网页爬虫」的强大和危险




步骤1:将想要抓取数据的URL链接告诉网页爬虫(这些URL也可以称为种子  


步骤2:爬虫辨认出URL链接中的所有超链接,然后添加到一个URL列表中(这个列表可以称为检索前沿


「网页爬虫」的强大和危险




步骤3: 在列表中的URL链接会被爬虫反复访问,并且在访问过程中,通过指定的逻辑,抓取想要得到的信息(这个处理可以称为网络抓取



2

—The second—



常用爬虫分类

        

01

通用网络爬虫


General Purpose 

  • 又可以称作「全网爬虫」。

  • 使用最为频繁的爬虫,主要用于搜索引擎WEB服务提供商采集数据。

  • 因为商业原因,技术细节不会被公布出来。

  • 这类爬虫范围巨大(整个网络)和数量巨大,所以对于处理速度和存储空间要求高(用来储存抓取到的数据)。

  • 使用此爬虫的搜索引擎:Yahoo!Google等。

  • 深度优先策略:依次访问向下一级的网页链接,直到不能再深入。这种优先策略适合站内搜索,但如果访问的层级太深的话,会造成资源的巨大浪费。

  • 广度优先策略:优先访问较浅层级的网页,遍历玩了之后再进入下一层。这种优先策略避免陷入无限循环的问题,但是需要较长时间进入深层页面


    三个缺点

    • 搜索引擎会返回大量用户不关心的网页

    • 有限的搜索引擎服务器资源与无限的网络数据之间的矛

    • 能很好的发现和获取图片、数据库、音频和视频数据            


02

聚焦网络爬虫


Focused

  • 又可以称作「主题网络爬虫

  • 可以选择性地爬行那些与特定主题相关的网页

  • 只爬行与主题相关的页面,极大的节省了硬件资源和网络资源

  • 此爬虫的关键是给页面内容进行重要性排比

  • 基于内容的策略:将用户输入的查询词作为主题,包含查询词的页面被视为与主题相关

  • 基于链接结构的策略:通过逐个计算每个页面的Authority权重和Hub权重来决定页面的重要性

  • 基于增强学习的策略利用贝叶斯分类器算出每个网页的重要性

  • 基于语境的策略:太过复杂,如果想要了解,复制下面链接查看其论文    https://xueshu.baidu.com/usercenter/paper/show?paperid=4b14360332ed45e0e9d65062ee63c526&site=xueshu_se




3

—The third—



爬虫容易涉及的三重罪



「网页爬虫」的强大和危险



01

罪名


Accusations

  1. 侵犯公民个人信息罪

    • 爬取的数据信息属于公民个人信息范畴   

    • 利用爬虫技术获取的公民个人信息为非法获取的

    • 非法获取公民个人信息达到“情节严重” 

    • 相关法律依据:《刑法》第253条:向他人出售或者提供公民个人信息


     2. 构成非法获取计算机信息系统数据罪

    • 利用爬虫技术侵入计算机信息系统获取数据,或采用其他技术手段获取计算机信息系统数据

    • 非法获取计算机信息系统数据达到“情节严重”以上的标准

    • 违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的


     3. 非法侵入计算机信息系统罪

    • 提供数据信息的网站为国家事务、国防建设、尖端科学技术领域的计算机信息系统

    • 对计算机信息系统具有侵入行为


02

风控行业陷入噩梦

  • 作为风控公司,需要大量的数据以进行比对和制作出风控程序,所以需要大量在网页上进行抓取数据。

  • 每次用爬虫都有触犯法律的危险。

  • 2019年09月06日,大数据风控平台杭州魔蝎科技有限公司的CEO被警方带走进行调查,就是因为大量使用爬虫,并进行了非法的隐私侵犯

  • 有一家技术公司做了一个爬虫程序来进行学习,后来全公司200多人被抓

  • 有一家外卖平台,一位员工用了公司的权限做了一个爬虫软件(老板不知情),后来被发现了,此员工入狱4~5年,老板入狱1~2年。


03

计算机行业的道德

  • 作为计算机行业公司,需要非常谨慎触犯法律的代码

  • 一定要遵守严格的制作程序规则,不然你就会获得精美手铐一副,简约囚服一套,和监狱1~5年游的“奖励”




E



N



D




往期文章传送门:


「网页爬虫」的强大和危险

「网页爬虫」的强大和危险

图片:网络

文章:小黑

排版:小黑

来都来了,点个在看再走吧!


点击“阅读原文” 关注「先驱者PRO」

以上是关于「网页爬虫」的强大和危险的主要内容,如果未能解决你的问题,请参考以下文章

Scrapyd 使用详解

请问啥是网络爬虫啊?是干啥的呢

Python爬虫之三种网页抓取方法性能比较

Python——网络爬虫(爬取网页图片)

爬虫技术,你可以成为互联网上的spiderman

Python编程网页爬虫工具集介绍