Vision API - 强制 API 分析不被视为单个文本行的图像

Posted

技术标签:

【中文标题】Vision API - 强制 API 分析不被视为单个文本行的图像【英文标题】:Vision API - Force API to analyze a image not perceived as a single text line 【发布时间】:2016-12-16 14:29:53 【问题描述】:

我一直在使用 Google Vision API,但我遇到了一个我无法解决的问题 解决。这是我正在处理的图像:

在上图中,Google Vision API(也适用于 IBM (Watson)Microsft(认知服务))不理解 2,99€ 是值得阅读的,因为它不被视为单行,所以 输出只是我期望他做的(了解价格 标签)。

如果我使用的是 Tesseract,我会通过使用 -psm 7 选项来解决这个问题,以强制它作为单个文本行读取,但我无法使用 Google Vision API 找到这种情况的文档。

以前有没有人做过类似的事情?我不知道如何解决这个问题...

【问题讨论】:

【参考方案1】:

我有一个类似的问题,而且 Vision API 似乎不适合解决此类问题。 API 不会为您提供有关找到的文本结构的任何信息(除了找到文本的矩形之外),反过来也不关心结构。

AFAIK 你还不能用视觉 API 解决这个问题,尽管将来可能会有某种解决方案。

现在有 AnnotateImageRequest 的“ImageContext”部分,我希望它将用于您将来尝试做的事情。

【讨论】:

以上是关于Vision API - 强制 API 分析不被视为单个文本行的图像的主要内容,如果未能解决你的问题,请参考以下文章

Microsoft ProjectOxford Vision API ClientException 错误

来自边界框的 Google Vision Api 文本检测布局信息

vision-client 不支持 api-key

Project oxford vision API ocr异常

json Google Cloud Vision API OpenAPI

如何使用 python 发送 REST API(Google Vision 的 API)请求?