Python编程网页爬虫工具集介绍

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python编程网页爬虫工具集介绍相关的知识,希望对你有一定的参考价值。

【导语】对于一个软件工程开发项目来说,一定是从获取数据开始的。不管文本怎么处理,机器学习和数据发掘,都需求数据,除了通过一些途径购买或许下载的专业数据外,常常需求咱们自己着手爬数据,爬虫就显得格外重要,那么Python编程网页爬虫东西集有哪些呢?下面就来给大家一一介绍一下。

1、 Beautiful Soup

客观的说,Beautifu Soup不完满是一套爬虫东西,需求协作urllib运用,而是一套html / XML数据分析,清洗和获取东西。

2、Scrapy

Scrapy相Scrapy, a fast high-level screen scraping and web crawling framework
for
Python.信不少同学都有耳闻,课程图谱中的许多课程都是依托Scrapy抓去的,这方面的介绍文章有许多,引荐大牛pluskid早年的一篇文章:《Scrapy
轻松定制网络爬虫》,历久弥新。

3、 Python-Goose

Goose最早是用Java写得,后来用Scala重写,是一个Scala项目。Python-Goose用Python重写,依靠了Beautiful
Soup。给定一个文章的URL, 获取文章的标题和内容很便利,用起来非常nice。

以上就是Python编程网页爬虫工具集介绍,希望对于进行Python编程的大家能有所帮助,当然Python编程学习不止需要进行工具学习,还有很多的编程知识,也需要好好学起来哦,加油!

参考技术A 网络
urllib-网络库(stdlib)。
requests-网络库。
grab–网络库(基于pycurl)。
pycurl–网络库(绑定libcurl)。
urllib3–PythonHTTP库,安全连接池、支持文件post、可用性高。
httplib2–网络库。
RoboBrowser–一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。
MechanicalSoup-一个与网站自动交互Python库。
mechanize-有状态、可编程的Web浏览库。
socket–底层网络接口(stdlib)。
UnirestforPython–Unirest是一套可用于多种语言的轻量级的HTTP库。
hyper–Python的HTTP/2客户端。
PySocks–SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征。作为socket模块的直接替换。
异步
treq–类似于requests的API(基于twisted)。
aiohttp–asyncio的HTTP客户端/服务器(PEP-3156)。
网络爬虫框架
功能齐全的爬虫
grab–网络爬虫框架(基于pycurl/multicur)。
scrapy–网络爬虫框架(基于twisted),不支持Python3。
pyspider–一个强大的爬虫系统。
cola–一个分布式爬虫框架。
其他
portia–基于Scrapy的可视化爬虫。
restkit–Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源,并围绕它建立的对象。
demiurge–基于PyQuery的爬虫微框架。
HTML/XML解析器
通用
lxml–C语言编写高效HTML/XML处理库。支持XPath。
cssselect–解析DOM树和CSS选择器。
pyquery–解析DOM树和jQuery选择器。
BeautifulSoup–低效HTML/XML处理库,纯Python实现。
html5lib–根据WHATWG规范生成HTML/XML文档的DOM。该规范被用在现在所有的浏览器上。
feedparser–解析RSS/ATOMfeeds。
MarkupSafe–为XML/HTML/XHTML提供了安全转义的字符串。
xmltodict–一个可以让你在处理XML时感觉像在处理JSON一样的Python模块。
xhtml2pdf–将HTML/CSS转换为PDF。
untangle–轻松实现将XML文件转换为Python对象。
清理
Bleach–清理HTML(需要html5lib)。
sanitize–为混乱的数据世界带来清明。
文本处理
用于解析和操作简单文本的库。

Python爬虫编程思想:网页基础

        

目录

1. HTML

2. CSS

3. CSS选择器

4 .JavaScript


Python爬虫编程思想(4):网络爬虫的基本原理

        整个互联网拥有数以亿计的网页,这些网页的样式千差万别,但不管是什么样的网页,都离不开Web三剑客对其做的贡献,它们是HTML、CSS和JavaScript。这三种技术是Web的核心,它们分工不同。HTML决定了Web页面上有什么样的组件(如按钮、表格、复选框等),CSS决定了Web页面上的这些组件如何摆放(布局),以及它们的样式,而JavaScript是一种编程语言,可以运行在浏览器中,可以让Web页面中的组件动起来,例如,动态显示数据,动态设置组件的样式,以及动态从服务端获取数据。对于一个Web页面,JavaScript并不是必须的,但HTML和CSS必须使用,这样的页面就是纯的静态页面。如果爬虫要遇到这样的页面,那就幸福得多了,直接下载后分析即可。但关键是绝大多数页面还有JavaScript的参与,而且很多数据都是动态设置的。所以对于一个功能强大的爬虫来说,不仅要面对HTML和CSS这样的静态内容,还要应对像JavaScript这样的编程语言。而作为一名合格的爬虫程序员,了解Web三剑客的基础知识,对于分析处理这类复杂情况会有很大帮助,因此,本节会简单介绍Web三剑客,以及CSS选择器的一些基础知识。

1. HTML

        HTML是用来描述网页的一种语言、全称是Hyper Text Markup Language,中文名称是超文本标记语言。HTML用不同的节点表示各种节点,这些节点可以组成任意复杂的网页,例如,文字、按钮、图片、表格、视频、段落标记、容纳其他节点的div等。各种节点通过不同的排列和嵌套形成了网页的框架。

        在Chrome浏览器中打开京东商城首页,在右键菜单中单击“检查”菜单项,打开开发者工具,这时在Elements选项卡中就可以看到京东商城首页的源代码,如图1所示。

        这些代码就是HTML,整个网页就是由各种节点嵌套组合而成的。这些节点定义的节点节点相互嵌套和组合形成了复杂的层次关系,这些层次关系就形成了网页的架构。

2. CSS

        HTML定义了页面有哪些节点,但如果只有这些节点,会让Web页面看起来杂乱无章,为了让Web页面看起来更美观,需要借助CSS。

        CSS的全称是Cascading Style Sheets,中文名称是层叠样式表。CSS的主要作用有如下2个:

  • 将由HTML定义的页面节点安排到合适的位置,这种操作称为布局。
  • 设置页面节点的样式,如背景颜色、文字颜色、字体尺寸等。

        CSS是目前唯一的Web页面布局样式标准,有了CSS的帮助,Web页面才会更加美观。图2-15右侧Styles选项卡中显示的就是京东商城首页使用的CSS代码,例如,下面是这些代码中的一个片段。

body {

    -webkit-font-smoothing: antialiased;

    background-color: #fff;

    font: 12px/1.5 Microsoft
YaHei,tahoma,arial,Hiragino Sans GB,\\\\5b8b\\4f53,sans-serif;

    color: #666;

}

        CSS的核心是选择器。选择器的作用就是让CSS知道需要设置哪些HTML节点。通过选择器,CSS可以对HTML节点进行任何复杂规则的过滤,例如,只设置所有按钮的背景色为蓝色,或范围更小一点,设置所有class属性值为mybutton的按钮的文字颜色为红色。上面的代码使用了element选择器,选择了页面中所有的<body>节点。由于一个页面只有一个<body>节点,所以这段代码设置了这个唯一的<body>节点的样式,包括背景色、文字颜色等。在编写爬虫时,经常会通过样式名来过滤符合某一特种的节点,如要提取class属性值为title的<a>节点中的URL,还有更复杂的爬虫,需要直接分析CSS代码,例如,要提取页面中所有背景色为蓝色的按钮中的文本,所以作为一名爬虫程序员,要对CSS选择器有一定的了解,在下一节会介绍一些常用的CSS选择器。

3. CSS选择器

        CSS选择器的作用很简单,就是过滤HTML代码中符合条件的节点,然后针对这些节点设置相应的样式,以及安排合适的位置。所以CSS选择器也可以看做是过滤器。CSS选择器非常多,尤其是最新的CSS3。也没有必要记住所有的CSS选择器以及其用法(一般人也记不住),但有一些常用的CSS选择器还是需要牢记于心的。最常用的过滤节点的方式就是根据节点名称、id属性和class属性。每一个选择器后面需要跟一对大括号({...}),用于设置具体的样式。像上一节的CSS代码,直接使用了body,这就是根据节点名设置样式。如果要根据id属性设置样式,需要以井号(#)开头,代码如下:

#button1 {
background-color: #f00;
}

 上面的CSS代码会将Web页面中所有id属性值为button1的节点的背景色设置为红色。

如果要根据class属性设置样式,需要以点(.)开头,代码如下:

.title {
 color: #f00;
}

上面的CSS代码将Web页面中所有class属性值为title的节点的文字颜色设为红色。

除了这些常用的CSS选择器外,还有很多其他的常用CSS选择器,这些CSS选择器如表1所示。

表1 常用的CSS选择器

选择器

例子

描述

.class 

.title

选择 class=title 的所有节点

#id               

#button1

选择 id=button1 的所有节点

*                  

*

选择所有节点

element                  

a

选择所有 节点

element,element               

div,a

选择所有

节点和所有 节点

element>element

div>a

选择父节点为

节点的所有 节点

element+element

div+a

选择紧接在

节点之后的所有 节点

[attribute]

[target]

选择带有 target 属性所有节点

[attribute=value]

[target=_blank]

选择 target=_blank 的所有节点

[attribute~=value]

[title~=flower]

选择 title 属性包含单词 flower 的所有节点

[attribute|=value]

[lang|=en]

选择 lang 属性值以 en 开头的所有节点

:link

a:link

选择所有未被访问的链接

:visited

a:visited

选择所有已被访问的链接

:active

a:active

选择活动链接

:hover

a:hover

选择鼠标指针位于其上的链接

:focus

input:focus

选择获得焦点的 input 节点

:first-letter

p:first-letter

选择每个

节点的首字母

:first-line

p:first-line

选择每个

节点的首行

:first-child

p:first-child

选择属于父节点的第一个子节点的每个

节点

:before

p:before

在每个

节点的内容之前插入内容

:after

p:after

在每个

节点的内容之后插入内容

:lang(language)

p:lang(it)

选择带有以 it 开头的 lang 属性值的每个

节点

element1~element2

p~ul

选择前面有

节点的每个

  • 节点

[attribute^=value]

a[src^=https]

选择其 src 属性值以 https 开头的每个 节点

[attribute$=value]

a[src$=.pdf]

选择其 src 属性以 .pdf 结尾的所有 节点

[attribute*=value]

a[src*=abc]

选择其 src 属性中包含 abc 子串的每个 节点

:first-of-type

p:first-of-type

选择属于其父节点的首个

节点的每个

节点

:last-of-type

p:last-of-type

选择属于其父节点的最后

节点的每个

节点

:only-of-type

p:only-of-type

选择属于其父节点唯一的

节点的每个

节点

:only-child

p:only-child

选择属于其父节点的唯一子节点的每个

节点

:nth-child(n)

p:nth-child(2)

选择属于其父节点的第二个子节点的每个

节点

:nth-last-child(n)

p:nth-last-child(2)

同上,从最后一个子节点开始计数

:nth-of-type(n)

p:nth-of-type(2)

选择属于其父节点第二个

节点的每个

节点

:nth-last-of-type(n)

p:nth-last-of-type(2)

同上,但是从最后一个子节点开始计数

:last-child

p:last-child

选择属于其父节点最后一个子节点每个

节点

:root

:root

选择文档的根节点

:empty

p:empty

选择没有子节点的每个

节点(包括文本节点)

:target

#news:target

选择当前活动的 #news 节点

:enabled

input:enabled

选择每个启用的 节点

:disabled

input:disabled

选择每个禁用的 节点

:checked

input:checked

选择每个被选中的 节点

:not(selector)

:not(p)

选择非

节点的每个节点

::selection

::selection

选择被用户选取的节点部分

除了CSS选择器外,还可以用XPath来过滤节点,XPath会在后面的内容中讲解。

4 .JavaScript

        JavaScript,简称JS,是一种脚本语言。HTML与CSS配合,只能让Web页面变得更美观,但无法提供动态的效果,例如,实现页面特效,或从服务端使用AJAX获取数据,并动态显示在Web页面中,因此,要实现一个拥有动态效果的Web页面,JavaScript是必不可少的。

        对于爬虫来说,通常不需要直接分析JavaScript代码,但有一些Web API返回的并不是纯的JSON或XML代码,而是一段JavaScript代码,所以需要解析这段代码,将必要的信息提取出来,或干脆模拟浏览器执行这段代码,直接获取某些变量的信息,例如,下面的代码将json数据保存在了一个名为data的变量中。

var data = '{"name":"李宁","country":"China"}';

        要想获得json文档内容,或者直接解析这行代码,或者执行这行,得到data变量的值。

        如果JavaScript代码比较多,并不建议直接写在HTML页面中,而是单独创建一个或多个文件扩展名为js的文件,然后使用<script>节点引用这行脚本文件,例如,下面的代码引用了jQuery脚本文件。引用脚本文件后,就可以在引用脚本文件的HTML页面中使用该脚本文件中的JavaScript代码了。

<script src="jquery-3.3.1.min.js"></script>

Python爬虫编程思想(4):网络爬虫的基本原理 

以上是关于Python编程网页爬虫工具集介绍的主要内容,如果未能解决你的问题,请参考以下文章

Python 爬虫零基础教程:简介及准备

python爬虫能做啥

Python爬虫编程思想:HTTP基础

python能做啥软件?

数据之路 - Python爬虫 - Ajax

5个python爬虫教材,让小白也有爬虫可写,含视频教程!