Python爬虫有道词典示例
Posted 冰岩编程
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫有道词典示例相关的知识,希望对你有一定的参考价值。
网络爬虫是通过自动化的方式进行网页浏览、检索并存储有关的信息。 简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。下面大家通过一个案例进行爬虫实战,本文案例仅用于学习,是以学习为目的的实战:
一、案例要求:
在有道词典上(youdao.com)爬取excel表中指定单词的全部相关信息(包含图片和音频),并将这些信息存入到excel表和对应的文件夹中。
二、案例分析
1. 爬取的信息源是有道词典
2. 需检索的内容是excel表中,指定的单词
3. 爬取指定单词的相关信息
4. 将这些信息(包含图片和音频)存入原excel表中
三、结果示例
单词:
图片:
音频:
四、源代码
解析数据主要用的XPath,XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
XPath解析原理(编码流程):
-
- 实例化一个etree的对象,且将页面源码数据加载到该对象中
-
- 调用etree对象中的XPath方法实现标签定位和数据的提取
-
- 在XPath函数中必须作用XPath表达式
数据请求与获取主要使用requests库,与excel进行交互主要使用pandas库。
公众号回复“有道”获取本文源代码~
以上是关于Python爬虫有道词典示例的主要内容,如果未能解决你的问题,请参考以下文章