我可以使用 OCR 检测字体样式(粗体、斜体)吗? [关闭]

Posted

技术标签:

【中文标题】我可以使用 OCR 检测字体样式(粗体、斜体)吗? [关闭]【英文标题】:Can I use OCR to detect font style (bold, italic)? [closed] 【发布时间】:2011-07-07 00:09:46 【问题描述】:

我对使用 OCR 从简单文本中提取粗体和斜体字感兴趣。例如,如果我输入带有如下文本的清晰图像:

“敏捷的棕色狐狸超过了懒惰的狗。”

我想得到这样的输出:bold("brown", "jumps"), italic("lazy")

我已经研究过使用 OCRopus 或 Tesseract 来做这件事,但是文档很差,我不知道这是否可行,或者如果可以的话该怎么做。

【问题讨论】:

我建议您尝试 ABBYY Cloud OCR。请看我的回答***.com/a/63098644/2598453 【参考方案1】:

Tesseract 3.0.1 中有这样的功能,来自trunk。 API 中添加了一个新类 - ResultIterator,它具有以下您感兴趣的功能:

 WordFontAttributes(bool* is_bold,
                    bool* is_italic,
                    bool* is_underlined,
                    bool* is_monospace,
                    bool* is_serif,
                    bool* is_smallcaps,
                    int* pointsize,
                    int* font_id).  

其实你可以在here.看到自己

【讨论】:

新网址:github.com/tesseract-ocr/tesseract/blob/3.01/api/…【参考方案2】:

Tesseract 3.0x 基于 XML 的 hOCR 格式包括字符属性。您可能想尝试一下。

http://code.google.com/p/tesseract-ocr/issues/detail?id=377#c5

【讨论】:

以上是关于我可以使用 OCR 检测字体样式(粗体、斜体)吗? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

我们可以在 Java 中将两种字体样式组合在一起吗?

pdf 锐利的字体样式粗体,斜体和下划线一起

如何从字体面板(NSFontPanel)和颜色中仅检索字体样式(粗体,斜体,粗斜体)?

如何在 Android TextView 中将字体样式设置为粗体、斜体和下划线?

Java FX:粗体和斜体样式未应用于某些字体系列

文字排版--字体字号颜色粗体斜体下划线删除线