ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr

Posted cml-py

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr相关的知识,希望对你有一定的参考价值。

lxml 的安装(xpath)

pip3 install lxml

可能会缺少以下依赖:

sudo apt-get install -y python3-dev build-e ssential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

基本用法:

from lxml import etree

import requests

html = requests.get(finalURL).content.decode(‘utf-8‘)

dom_tree = etree.HTML(html)

links = dom_tree.xpath("//div/span[@class=‘info-col‘]/a")

Beautiful Soup的安装

pip3 install beautifulsoup4

pyquery的安装

p1p3 install pyquery

tesserocr的安装

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

接下来再安装tesserocr和pillow 即可,这里直接使用pip 安装:
pip3 install tesserocr pillow

如果想要安装多国语言,还需要安装语言包,官方叫作tessdata

(其下载链接为:https://github.com/tesseract-ocr/tessdata )。

利用G it 命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。
在Ubuntu 、Debian 和Deepin 系统下的迁移命令如下:
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata





以上是关于ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr的主要内容,如果未能解决你的问题,请参考以下文章

Linux环境下的Python配置,必备库的安装配置

Pyquery解析库的安装和使用

ubuntu virtualenv安装

学习笔记Python - Lxml

Python Beautiful Soup 解析库的使用

Python 爬虫 解析库的使用 --- Beautiful Soup