python有啥好的本地文字识别

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python有啥好的本地文字识别相关的知识,希望对你有一定的参考价值。

参考技术A 你好,如果是英文的话。你可以用下面的库。
  pytesser,OCR in Python using the Tesseract engine from Google。是谷歌OCR开源项目的一个模块,可将图片中的文字转换成文本(主要是英文)
如果要识别中文还需要下载对应的训练集:https://github.com/tesseract-ocr/tessdata
,下载”chi_sim.traineddata”,然后copy到训练数据集的存放路径。下面是一个例子的代码。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import pytesseract
from PIL import Image

# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

Python 有啥好的 pdf417 条码库吗?

【中文标题】Python 有啥好的 pdf417 条码库吗?【英文标题】:Any good pdf417 Barcode libraries for Python?Python 有什么好的 pdf417 条码库吗? 【发布时间】:2011-10-28 03:36:55 【问题描述】:

我正在寻找一个好的 python 模块来生成 pdf417 条形码。有人用过自己喜欢的吗?

理想情况下,我希望有一个尽可能少的依赖项,并且可以在 linux 和 MacOSX 上运行。

【问题讨论】:

你试过哪些? reportlab.com 的人有一个开源版本的库,对我来说表现很好。 我正在使用 reportlab 作为 code128 条码,但我认为它们不支持 pdf417。你知道它是否受支持,我可以找到任何关于他们支持什么类型的文档。 您在寻找生成条形码的库吗?解码条形码?两者都有? 【参考方案1】:

我们最近也不得不解决这个问题,作为一家 Python 商店,我们需要 Python 解决方案。很明显,elaphe 是有可能实际完成 pdf 417 条码的项目。

但是,我们发现它按照今天的标准是错误的,因此我们开始寻找修复库。结果 elaphe 必须生成一个过时形式的 *.eps post 脚本,它不能被 ghost 脚本解释,这就是条形码生成失败的地方。

幸运的是,elphae 在幕后使用了一个名为 Barcode Writer in Pure PostScript @ http://bwipp.terryburton.co.uk 的通用库

这个通用后端库有许多多语言项目,使用它来生成项目。专门为我们解决的问题是 fork elaphe,并更正它的 *.eps 文件生成。

要确定 *.eps 中有什么损坏,请查看使用 postscriptbarcode 制作的其他网站,它可以让您在线生成 pdf417 条形码(以及其他格式):http://www.terryburton.co.uk/barcodewriter/generator/

生成 pdf417 条形码后,您可以选择下载 .png、.jpg 和 .eps 文件!

使用此 .eps 文件,您可以将其通过管道传输到 ghost 脚本并调整参数化以获得您正在寻找的准确 pdf417 条形码。然后把这个结果集成到 elaphe 库中,然后实际上得到一个关于那个东西的拉取请求....

似乎有点工作,但没有什么是一个下午打不完的。理想的做法是让 elaphe 库恢复原状以生成这些而不进行此增强。

请注意,这种方法对我们来说生成此条形码的性能需要几秒钟,因为它会创建 2000 行 eps 文件并将其通过管道传送到 ghost 脚本,该脚本会生成另一个图像文件,我们将其作为最终发送回条码结果。这不如使用 reportlab 的 code128 性能。

也许还有优化空间:无论如何,枕头比 PIL 快吗?我们需要eps文件的所有部分来生成pdf417类型的条形码吗?其他优化方式?

无论如何,Ken 的问题很好,我希望你能找到这个很好的答案。

【讨论】:

【参考方案2】:

我猜 Matteius 在 2013 年报告的 elaphe 中的问题已经修复,因为问题和提交日志显示了自那时以来 pdf417 主题的更新。

无论如何,现在还有一些其他选项(使用pip search elaphepip search pdf417 获得列表):

elaphe; elaphe3(elaphe 的分支针对 python3 进行了测试); candybar(没有文档?还有a webservice); pdf417gen; treepoem (关于名称:barcode -> bark ode -> tree football =D)- 编辑:没有挖掘问题,但截至今天,PDF417 代似乎已损坏。

pdf417gen 之外的所有条码都支持多种类型的条码。

请注意bwipp 的文档(基于elaphetreepoem)only mentions 5 个级别的纠错(1 到 5),而pdf417genclaims to support 9 个安全级别(0到 8)。

【讨论】:

有趣,我刚刚看到您对此的评论,并会记下尝试一下。【参考方案3】:

Reportlab 确实有一个名为 rlbarcode 的扩展,但这个扩展不包括对 pdf417 代码的支持。我不知道 reportlab 的任何其他扩展,包括对 pdf417 条形码的支持。

无论如何,如果你对从 python 生成 pdf417 代码感兴趣,你可能会对这个项目感兴趣:elaphe。

我还没有测试过(其实我需要从python生成pdf417,我找到了这个线程以及elaphe项目页面)我准备下载elaphe工具来测试一下。

【讨论】:

以上是关于python有啥好的本地文字识别的主要内容,如果未能解决你的问题,请参考以下文章

.NET 有啥好的图像识别库吗?

python之图片文字识别

有啥好的知识管理软件?

腾讯云本地图片的文字识别。

用python帮别人写了个文字识别程序

ocr文字识别软件