Google Cloud Vision - 数字和数字 OCR

Posted 2023-04-17

技术标签:

【中文标题】Google Cloud Vision - 数字和数字 OCR【英文标题】：Google Cloud Vision - Numbers and Numerals OCR 【发布时间】：2017-01-25 05:29:47 【问题描述】：

我一直在尝试使用 Python 实现一个 OCR 程序，该程序可以读取特定格式 XXX-XXX 的数字。我使用了 Google 的 Cloud Vision API Text Recognition，但结果不可靠。在 30 张高对比度 1280 x 1024 bmp 图像中，只有少数得到了正确的输出，或者至少在结果中包含了正确的输出。该程序倾向于省略一些数字，以非英语语言输出或潜入一些特殊字符。

目标是至少连续输出正确的数字，不管结果是否被其他垃圾所覆盖。有没有办法帮助程序更好地识别数字，例如将结果限制为特定格式或仅限数字？

【问题讨论】：

【参考方案1】：

我无法告诉你为什么会这样，也许它与语言的阅读方式有关，o vs 0，l vs 1 等。但是每当我使用 OCR 并且我专门寻找数字时，我都有阅读以将检测语言设置为“韩语”。它对我来说效果非常好，并且对准确性有很大影响。

【讨论】：

我可以确认 - 也使用韩语improves number OCR for the OCR.space api。【参考方案2】：

目前无法为 Vision API 请求添加约束或提供特定的预期数字格式，如 here 所述（由 Cloud Vision API 的项目经理提供）。

您还可以检查所有可能的请求参数（在API reference 中），无表示任何指定数字格式的内容。目前只能选择：

latLongRect：指定图片的位置 languageHints：表示text_detection 的预期语言（支持的语言列表here）

我假设您已经检查了多个响应（包含不同的图像区域），看看您是否可以使用不同数字的位置重建文本？

请注意，Vision API 和 text_detection 并未专门针对您的数据进行优化，如果您有大量带注释的数据，也可以选择使用 Tensorflow 实际构建自己的模型。 This blogpost 解释了用于检测车牌（具有特定数字格式）的系统设置。所有代码都可以在Github 上找到，问题似乎与您的问题非常相关。

【讨论】：

以上是关于Google Cloud Vision - 数字和数字 OCR的主要内容，如果未能解决你的问题，请参考以下文章

google vision - 在 c# 中从 google.cloud.vision.v1.entity 注释转换为 json

json Google Cloud Vision API OpenAPI

Google Cloud Vision - 解析期间发生 PHP 错误

Google Cloud Vision Document OCR - 在结果文本中保留布局

IndexError：带有 Google Cloud Vision API 的字节数组

Google Cloud Vision API PDF 文本提取