我可以使用 OCR 检测字体样式(粗体、斜体)吗? [关闭]
Posted
技术标签:
【中文标题】我可以使用 OCR 检测字体样式(粗体、斜体)吗? [关闭]【英文标题】:Can I use OCR to detect font style (bold, italic)? [closed] 【发布时间】:2011-07-07 00:09:46 【问题描述】:我对使用 OCR 从简单文本中提取粗体和斜体字感兴趣。例如,如果我输入带有如下文本的清晰图像:
“敏捷的棕色狐狸跳超过了懒惰的狗。”
我想得到这样的输出:bold("brown", "jumps"), italic("lazy")
我已经研究过使用 OCRopus 或 Tesseract 来做这件事,但是文档很差,我不知道这是否可行,或者如果可以的话该怎么做。
【问题讨论】:
我建议您尝试 ABBYY Cloud OCR。请看我的回答***.com/a/63098644/2598453 【参考方案1】:Tesseract 3.0.1 中有这样的功能,来自trunk。 API 中添加了一个新类 - ResultIterator
,它具有以下您感兴趣的功能:
WordFontAttributes(bool* is_bold,
bool* is_italic,
bool* is_underlined,
bool* is_monospace,
bool* is_serif,
bool* is_smallcaps,
int* pointsize,
int* font_id).
其实你可以在here.看到自己
【讨论】:
新网址:github.com/tesseract-ocr/tesseract/blob/3.01/api/…【参考方案2】:Tesseract 3.0x 基于 XML 的 hOCR 格式包括字符属性。您可能想尝试一下。
http://code.google.com/p/tesseract-ocr/issues/detail?id=377#c5
【讨论】:
以上是关于我可以使用 OCR 检测字体样式(粗体、斜体)吗? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章
如何从字体面板(NSFontPanel)和颜色中仅检索字体样式(粗体,斜体,粗斜体)?