Python爬虫有道词典示例

Posted 2021-09-16 冰岩编程

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫有道词典示例相关的知识，希望对你有一定的参考价值。

网络爬虫是通过自动化的方式进行网页浏览、检索并存储有关的信息。简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。下面大家通过一个案例进行爬虫实战，本文案例仅用于学习，是以学习为目的的实战：

一、案例要求：

在有道词典上(youdao.com)爬取excel表中指定单词的全部相关信息（包含图片和音频），并将这些信息存入到excel表和对应的文件夹中。

二、案例分析

1. 爬取的信息源是有道词典

2. 需检索的内容是excel表中，指定的单词

3. 爬取指定单词的相关信息

4. 将这些信息（包含图片和音频）存入原excel表中

三、结果示例

单词：

$\'Python爬虫有道词典示例_公众号\'$

图片：

$\'Python爬虫有道词典示例_公众号_02\'$

音频：

$\'Python爬虫有道词典示例_有道词典_03\'$

四、源代码

解析数据主要用的XPath，XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

XPath解析原理(编码流程)：

- 实例化一个etree的对象，且将页面源码数据加载到该对象中
- 调用etree对象中的XPath方法实现标签定位和数据的提取
- 在XPath函数中必须作用XPath表达式

$\'Python爬虫有道词典示例_路径表达式_04\'$

数据请求与获取主要使用requests库，与excel进行交互主要使用pandas库。

公众号回复“有道”获取本文源代码~

以上是关于Python爬虫有道词典示例的主要内容，如果未能解决你的问题，请参考以下文章