Python爬虫有道词典示例

Posted 冰岩编程

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫有道词典示例相关的知识,希望对你有一定的参考价值。

网络爬虫是通过自动化的方式进行网页浏览、检索并存储有关的信息。 简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。下面大家通过一个案例进行爬虫实战,本文案例仅用于学习,是以学习为目的的实战:

一、案例要求:

在有道词典上(youdao.com)爬取excel表中指定单词的全部相关信息(包含图片和音频),并将这些信息存入到excel表和对应的文件夹中。

二、案例分析

1. 爬取的信息源是有道词典

2. 需检索的内容是excel表中,指定的单词

3. 爬取指定单词的相关信息

4. 将这些信息(包含图片和音频)存入原excel表中

三、结果示例

单词:

\'Python爬虫有道词典示例_公众号\'

图片:

\'Python爬虫有道词典示例_公众号_02\'

音频:

\'Python爬虫有道词典示例_有道词典_03\'

四、源代码

解析数据主要用的XPath,XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

XPath解析原理(编码流程):

  • - 实例化一个etree的对象,且将页面源码数据加载到该对象中

  • - 调用etree对象中的XPath方法实现标签定位和数据的提取

  • - 在XPath函数中必须作用XPath表达式

     

     

     

\'Python爬虫有道词典示例_路径表达式_04\'

数据请求与获取主要使用requests库,与excel进行交互主要使用pandas库。

公众号回复“有道”获取本文源代码~

以上是关于Python爬虫有道词典示例的主要内容,如果未能解决你的问题,请参考以下文章

网络爬虫技术创建属于自己的有道词典

python "爬虫+有道词典"实现一个简单翻译程序

python:爬虫1——实战(下载一张图片用Python模拟浏览器,通过在线的有道词典来对文本翻译)

python爬虫编写英译中小程序

爬虫post请求获取有道词典在线翻译

有道词典中的OCR功能:第三方库的变化