Vision API - 强制 API 分析不被视为单个文本行的图像

Posted 2023-04-17

技术标签:

【中文标题】Vision API - 强制 API 分析不被视为单个文本行的图像【英文标题】：Vision API - Force API to analyze a image not perceived as a single text line 【发布时间】：2016-12-16 14:29:53 【问题描述】：

我一直在使用 Google Vision API，但我遇到了一个我无法解决的问题解决。这是我正在处理的图像：

在上图中，Google Vision API（也适用于 IBM (Watson) 和 Microsft（认知服务））不理解 2,99€ 是值得阅读的，因为它不被视为单行，所以输出只是我期望他做的（了解价格标签）。

如果我使用的是 Tesseract，我会通过使用 -psm 7 选项来解决这个问题，以强制它作为单个文本行读取，但我无法使用 Google Vision API 找到这种情况的文档。

以前有没有人做过类似的事情？我不知道如何解决这个问题...

【问题讨论】：

【参考方案1】：

我有一个类似的问题，而且 Vision API 似乎不适合解决此类问题。 API 不会为您提供有关找到的文本结构的任何信息（除了找到文本的矩形之外），反过来也不关心结构。

AFAIK 你还不能用视觉 API 解决这个问题，尽管将来可能会有某种解决方案。

现在有 AnnotateImageRequest 的“ImageContext”部分，我希望它将用于您将来尝试做的事情。

【讨论】：

以上是关于Vision API - 强制 API 分析不被视为单个文本行的图像的主要内容，如果未能解决你的问题，请参考以下文章

Microsoft ProjectOxford Vision API ClientException 错误