谷歌视觉 OCR 数据表
Posted
技术标签:
【中文标题】谷歌视觉 OCR 数据表【英文标题】:Google Vision OCR data form 【发布时间】:2019-02-18 22:38:22 【问题描述】:我正在探索用于 OCR 的 Google Vision API。我们有很多由计算机生成并由用户填写的表格。就像医疗报告和登记表一样。 我们需要处理这些图像并从中取出角色。我已经尝试过 Google Vision API,它在计算机生成表单的情况下效果很好,但是手工填写的那些会产生问题。就像如果在表格中填写略高于 y 轴的数据,则单词被视为上一行/下一行。如下是输出
Study Contact Name:
Test
预计
Study Contact Name: Test
The Form used
代码参考:https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java
有没有办法将它放在一行中,或者了解它是否是该行的一部分?
任何其他 API 可以在这种情况下提供帮助?
【问题讨论】:
【参考方案1】:“在这种情况下可以提供帮助的任何其他 API”,如果您指的是 OCR API,我认为手写文档的性能并不好,或者至少不比 Google 好。
无论如何,我个人使用的一种可能方法是创建自己的方法来影响字母/单词的行。
这样,您可以控制可以将多少距离视为单词之间的同一“线”。
Google API 为您提供每个已识别字母的 X 和 Y 位置信息。因此,您可以简单地遍历所有字母或单词,如果它们 >= 或
【讨论】:
【参考方案2】:我可能为时已晚,但既然我带着类似的问题来到这里,我将分享我的发现:
-
Google 的 API 现在比识别手写表单要好得多。至少在我的测试中,它运行良好:Google Vision API。问题是识别表单的结构。我不知道如何告诉 Google 的 API 查找表格或查找特定字段。
我发现了一项您可能也感兴趣的有前途的服务:Azure Form recognizer
【讨论】:
以上是关于谷歌视觉 OCR 数据表的主要内容,如果未能解决你的问题,请参考以下文章