ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr

Posted 2021-01-06 cml-py

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr相关的知识，希望对你有一定的参考价值。

lxml 的安装（xpath）

pip3 install lxml

可能会缺少以下依赖：

sudo apt-get install -y python3-dev build-e ssential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

基本用法：

from lxml import etree

import requests

html = requests.get(finalURL).content.decode(‘utf-8‘)

dom_tree = etree.HTML(html)

links = dom_tree.xpath("//div/span[@class=‘info-col‘]/a")

Beautiful Soup的安装

pip3 install beautifulsoup4

pyquery的安装

p1p3 install pyquery

tesserocr的安装

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

接下来再安装tesserocr和pillow 即可，这里直接使用pip 安装：
pip3 install tesserocr pillow

如果想要安装多国语言，还需要安装语言包，官方叫作tessdata

（其下载链接为：https://github.com/tesseract-ocr/tessdata ）。

利用G it 命令将其下载下来并迁移到相关目录即可，不同版本的迁移命令如下所示。
在Ubuntu 、Debian 和Deepin 系统下的迁移命令如下： ”
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata

以上是关于ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr的主要内容，如果未能解决你的问题，请参考以下文章

Linux环境下的Python配置，必备库的安装配置

Pyquery解析库的安装和使用

ubuntu virtualenv安装

学习笔记Python - Lxml

Python Beautiful Soup 解析库的使用

Python 爬虫解析库的使用 --- Beautiful Soup