从文本文档图像中提取文本检测特征

Posted

技术标签:

【中文标题】从文本文档图像中提取文本检测特征【英文标题】:Text detection feature extraction from text document images 【发布时间】:2015-05-21 09:47:43 【问题描述】:

我想开发一个应用程序来检测扫描文档中可能包含混合文本、图形、图像等的文本。我想我可以使用固定大小的滑动窗口技术并使用前馈 NN 或 SVM 对这些区域进行分类,但我在特征提取阶段卡住了常用的特征提取方法是什么?

【问题讨论】:

您已经决定了学习的最佳技术,但没有决定它将在哪些输入(功能)上运行?这听起来有点倒退。 如果文档是键入文本而不是手写文本,您甚至可以使用模板匹配而不是更复杂的机器学习算法。如果字符是手写的,您还可以使用原始像素作为特征和类似 k 近邻的算法,具体取决于手写的清晰程度。 @eigenchris 所有文字图片均为机器打印 @IbrahimAmer 一个简单的方法是使用mean square error 或cross correlation 等指标将每个字母与一组示例进行比较。 【参考方案1】:

如果所有字符都是机器打印的,那么简单而准确的特征之一就是每个预处理字符图像的归一化密度值。

您可以在此处将图像划分为固定数量的片段并计算每个片段的归一化密度值。然后您将获得每个字符的密度值向量,并继续使用 NN 或 SVM 进行分类。

【讨论】:

谢谢您的回答,您能详细说明如何计算每个窗口的归一化密度值吗? 归一化密度值可以定义为,总密度(段的所有像素的所有密度的总和)/#段。你可以很容易地为此开发一些算法。【参考方案2】:

以下内容可能会对您有所帮助。也许这对于您尝试做的事情来说有点过头了,但它旨在识别图像中的文本区域。

“具有边缘增强的最大稳定极值区域的自然图像中的鲁棒文本检测”(http://web.stanford.edu/~hchen2/papers/ICIP2011_RobustTextDetection.pdf)

你可以在 github 上找到一个相关的项目(我自己没有使用过):https://github.com/subokita/Robust-Text-Detection 但你的示例图片可能值得一试。

有很多关于页面/文本分割的科学论文,在谷歌学者上搜索这些术语,你可以找到旧的、不太复杂的方法。一个例子是“使用快速特征提取和连通性分析的页面分割和分类”(http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.55.527&rep=rep1&type=pdf)

【讨论】:

以上是关于从文本文档图像中提取文本检测特征的主要内容,如果未能解决你的问题,请参考以下文章

使用 Java + 正则表达式从文本文档中提取 URL

如何从文本文档中预测连续值(时间)? [关闭]

使用 Wordnet 进行概念提取

如何将文本文档表示为特征向量进行文本分类?

使用随机森林对文本文档进行分类

如何将txt文件文本文档导入excel并分列显示