谷歌视觉 OCR 数据表

Posted

技术标签:

【中文标题】谷歌视觉 OCR 数据表【英文标题】:Google Vision OCR data form 【发布时间】:2019-02-18 22:38:22 【问题描述】:

我正在探索用于 OCR 的 Google Vision API。我们有很多由计算机生成并由用户填写的表格。就像医疗报告和登记表一样。 我们需要处理这些图像并从中取出角色。我已经尝试过 Google Vision API,它在计算机生成表单的情况下效果很好,但是手工填写的那些会产生问题。就像如果在表格中填写略高于 y 轴的数据,则单词被视为上一行/下一行。如下是输出

Study Contact Name:
Test

预计

Study Contact Name: Test

The Form used

代码参考:https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

有没有办法将它放在一行中,或者了解它是否是该行的一部分?

任何其他 API 可以在这种情况下提供帮助?

【问题讨论】:

【参考方案1】:

“在这种情况下可以提供帮助的任何其他 API”,如果您指的是 OCR API,我认为手写文档的性能并不好,或者至少不比 Google 好。

无论如何,我个人使用的一种可能方法是创建自己的方法来影响字母/单词的行。

这样,您可以控制可以将多少距离视为单词之间的同一“线”。

Google API 为您提供每个已识别字母的 X 和 Y 位置信息。因此,您可以简单地遍历所有字母或单词,如果它们 >= 或

【讨论】:

【参考方案2】:

我可能为时已晚,但既然我带着类似的问题来到这里,我将分享我的发现:

    Google 的 API 现在比识别手写表单要好得多。至少在我的测试中,它运行良好:Google Vision API。问题是识别表单的结构。我不知道如何告诉 Google 的 API 查找表格或查找特定字段。 我发现了一项您可能也感兴趣的有前途的服务:Azure Form recognizer

【讨论】:

以上是关于谷歌视觉 OCR 数据表的主要内容,如果未能解决你的问题,请参考以下文章

来自谷歌云视觉 API OCR 的逐行数据

谷歌视觉ocr:竖横线条文本识别

使用谷歌视觉进行 OCR 的正确方法是啥

谷歌视觉更好的 OCR 的理想图像尺寸是多少?

Azure 计算机视觉 API - PDF 文件上的 OCR 到文本

Azure 认知服务 - 计算机视觉 - OCR 不适用于手写