ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr
Posted cml-py
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr相关的知识,希望对你有一定的参考价值。
lxml 的安装(xpath)
pip3 install lxml
可能会缺少以下依赖:
sudo apt-get install -y python3-dev build-e ssential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
基本用法:
from lxml import etree
import requests
html = requests.get(finalURL).content.decode(‘utf-8‘)
dom_tree = etree.HTML(html)
links = dom_tree.xpath("//div/span[@class=‘info-col‘]/a")
Beautiful Soup的安装
pip3 install beautifulsoup4
pyquery的安装
p1p3 install pyquery
tesserocr的安装
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
接下来再安装tesserocr和pillow 即可,这里直接使用pip 安装:
pip3 install tesserocr pillow
如果想要安装多国语言,还需要安装语言包,官方叫作tessdata
(其下载链接为:https://github.com/tesseract-ocr/tessdata )。
利用G it 命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。
在Ubuntu 、Debian 和Deepin 系统下的迁移命令如下: ”
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata
以上是关于ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr的主要内容,如果未能解决你的问题,请参考以下文章