Vision API - 强制 API 分析不被视为单个文本行的图像
Posted
技术标签:
【中文标题】Vision API - 强制 API 分析不被视为单个文本行的图像【英文标题】:Vision API - Force API to analyze a image not perceived as a single text line 【发布时间】:2016-12-16 14:29:53 【问题描述】:我一直在使用 Google Vision API,但我遇到了一个我无法解决的问题 解决。这是我正在处理的图像:
在上图中,Google Vision API(也适用于 IBM (Watson) 和 Microsft(认知服务))不理解 2,99€ 是值得阅读的,因为它不被视为单行,所以 输出只是我期望他做的(了解价格 标签)。
如果我使用的是 Tesseract,我会通过使用 -psm 7
选项来解决这个问题,以强制它作为单个文本行读取,但我无法使用 Google Vision API 找到这种情况的文档。
以前有没有人做过类似的事情?我不知道如何解决这个问题...
【问题讨论】:
【参考方案1】:我有一个类似的问题,而且 Vision API 似乎不适合解决此类问题。 API 不会为您提供有关找到的文本结构的任何信息(除了找到文本的矩形之外),反过来也不关心结构。
AFAIK 你还不能用视觉 API 解决这个问题,尽管将来可能会有某种解决方案。
现在有 AnnotateImageRequest 的“ImageContext”部分,我希望它将用于您将来尝试做的事情。
【讨论】:
以上是关于Vision API - 强制 API 分析不被视为单个文本行的图像的主要内容,如果未能解决你的问题,请参考以下文章
Microsoft ProjectOxford Vision API ClientException 错误
来自边界框的 Google Vision Api 文本检测布局信息
Project oxford vision API ocr异常