谷歌视觉 OCR 数据表

Posted 2023-04-17

技术标签:

【中文标题】谷歌视觉 OCR 数据表【英文标题】：Google Vision OCR data form 【发布时间】：2019-02-18 22:38:22 【问题描述】：

我正在探索用于 OCR 的 Google Vision API。我们有很多由计算机生成并由用户填写的表格。就像医疗报告和登记表一样。我们需要处理这些图像并从中取出角色。我已经尝试过 Google Vision API，它在计算机生成表单的情况下效果很好，但是手工填写的那些会产生问题。就像如果在表格中填写略高于 y 轴的数据，则单词被视为上一行/下一行。如下是输出

Study Contact Name:
Test

预计

Study Contact Name: Test

The Form used

代码参考：https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

有没有办法将它放在一行中，或者了解它是否是该行的一部分？

任何其他 API 可以在这种情况下提供帮助？

【问题讨论】：

【参考方案1】：

“在这种情况下可以提供帮助的任何其他 API”，如果您指的是 OCR API，我认为手写文档的性能并不好，或者至少不比 Google 好。

无论如何，我个人使用的一种可能方法是创建自己的方法来影响字母/单词的行。

这样，您可以控制可以将多少距离视为单词之间的同一“线”。

Google API 为您提供每个已识别字母的 X 和 Y 位置信息。因此，您可以简单地遍历所有字母或单词，如果它们 >= 或

【讨论】：

【参考方案2】：

我可能为时已晚，但既然我带着类似的问题来到这里，我将分享我的发现：

Google 的 API 现在比识别手写表单要好得多。至少在我的测试中，它运行良好：Google Vision API。问题是识别表单的结构。我不知道如何告诉 Google 的 API 查找表格或查找特定字段。我发现了一项您可能也感兴趣的有前途的服务：Azure Form recognizer

【讨论】：

以上是关于谷歌视觉 OCR 数据表的主要内容，如果未能解决你的问题，请参考以下文章

来自谷歌云视觉 API OCR 的逐行数据

谷歌视觉ocr：竖横线条文本识别

使用谷歌视觉进行 OCR 的正确方法是啥

谷歌视觉更好的 OCR 的理想图像尺寸是多少？

Azure 计算机视觉 API - PDF 文件上的 OCR 到文本

Azure 认知服务 - 计算机视觉 - OCR 不适用于手写