python有啥好的本地文字识别

Posted 2023-04-22

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python有啥好的本地文字识别相关的知识，希望对你有一定的参考价值。

参考技术A 你好，如果是英文的话。你可以用下面的库。
　　pytesser，OCR in Python using the Tesseract engine from Google。是谷歌OCR开源项目的一个模块，可将图片中的文字转换成文本（主要是英文）
如果要识别中文还需要下载对应的训练集：https://github.com/tesseract-ocr/tessdata
，下载”chi_sim.traineddata”，然后copy到训练数据集的存放路径。下面是一个例子的代码。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import pytesseract
from PIL import Image

# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

Python 有啥好的 pdf417 条码库吗？

【中文标题】Python 有啥好的 pdf417 条码库吗？【英文标题】：Any good pdf417 Barcode libraries for Python?Python 有什么好的 pdf417 条码库吗？ 【发布时间】：2011-10-28 03:36:55 【问题描述】：

我正在寻找一个好的 python 模块来生成 pdf417 条形码。有人用过自己喜欢的吗？

理想情况下，我希望有一个尽可能少的依赖项，并且可以在 linux 和 MacOSX 上运行。

【问题讨论】：

你试过哪些？ reportlab.com 的人有一个开源版本的库，对我来说表现很好。我正在使用 reportlab 作为 code128 条码，但我认为它们不支持 pdf417。你知道它是否受支持，我可以找到任何关于他们支持什么类型的文档。您在寻找生成条形码的库吗？解码条形码？两者都有？ 【参考方案1】：

我们最近也不得不解决这个问题，作为一家 Python 商店，我们需要 Python 解决方案。很明显，elaphe 是有可能实际完成 pdf 417 条码的项目。

但是，我们发现它按照今天的标准是错误的，因此我们开始寻找修复库。结果 elaphe 必须生成一个过时形式的 *.eps post 脚本，它不能被 ghost 脚本解释，这就是条形码生成失败的地方。

幸运的是，elphae 在幕后使用了一个名为 Barcode Writer in Pure PostScript @ http://bwipp.terryburton.co.uk 的通用库

这个通用后端库有许多多语言项目，使用它来生成项目。专门为我们解决的问题是 fork elaphe，并更正它的 *.eps 文件生成。

要确定 *.eps 中有什么损坏，请查看使用 postscriptbarcode 制作的其他网站，它可以让您在线生成 pdf417 条形码（以及其他格式）：http://www.terryburton.co.uk/barcodewriter/generator/

生成 pdf417 条形码后，您可以选择下载 .png、.jpg 和 .eps 文件！

使用此 .eps 文件，您可以将其通过管道传输到 ghost 脚本并调整参数化以获得您正在寻找的准确 pdf417 条形码。然后把这个结果集成到 elaphe 库中，然后实际上得到一个关于那个东西的拉取请求....

似乎有点工作，但没有什么是一个下午打不完的。理想的做法是让 elaphe 库恢复原状以生成这些而不进行此增强。

请注意，这种方法对我们来说生成此条形码的性能需要几秒钟，因为它会创建 2000 行 eps 文件并将其通过管道传送到 ghost 脚本，该脚本会生成另一个图像文件，我们将其作为最终发送回条码结果。这不如使用 reportlab 的 code128 性能。

也许还有优化空间：无论如何，枕头比 PIL 快吗？我们需要eps文件的所有部分来生成pdf417类型的条形码吗？其他优化方式？

无论如何，Ken 的问题很好，我希望你能找到这个很好的答案。

【讨论】：

【参考方案2】：

我猜 Matteius 在 2013 年报告的 elaphe 中的问题已经修复，因为问题和提交日志显示了自那时以来 pdf417 主题的更新。

无论如何，现在还有一些其他选项（使用pip search elaphe 或pip search pdf417 获得列表）：

elaphe; elaphe3（elaphe 的分支针对 python3 进行了测试）； candybar（没有文档？还有a webservice）； pdf417gen; treepoem （关于名称：barcode -> bark ode -> tree football =D）- 编辑：没有挖掘问题，但截至今天，PDF417 代似乎已损坏。

除pdf417gen 之外的所有条码都支持多种类型的条码。

请注意bwipp 的文档（基于elaphe 和treepoem）only mentions 5 个级别的纠错（1 到 5），而pdf417genclaims to support 9 个安全级别（0到 8)。

【讨论】：

有趣，我刚刚看到您对此的评论，并会记下尝试一下。【参考方案3】：

Reportlab 确实有一个名为 rlbarcode 的扩展，但这个扩展不包括对 pdf417 代码的支持。我不知道 reportlab 的任何其他扩展，包括对 pdf417 条形码的支持。

无论如何，如果你对从 python 生成 pdf417 代码感兴趣，你可能会对这个项目感兴趣：elaphe。

我还没有测试过（其实我需要从python生成pdf417，我找到了这个线程以及elaphe项目页面）我准备下载elaphe工具来测试一下。

【讨论】：

以上是关于python有啥好的本地文字识别的主要内容，如果未能解决你的问题，请参考以下文章