光学字符识别中的表示是啥?

Posted

技术标签:

【中文标题】光学字符识别中的表示是啥?【英文标题】:What is representation in optical character recognition?光学字符识别中的表示是什么? 【发布时间】:2017-11-07 20:48:05 【问题描述】:

我正在学习 OCR 并正在阅读这本书 https://www.amazon.com/Character-Recognition-Different-Languages-Computing/dp/3319502514

作者定义了 8 个流程来实现 OCR,一一遵循(2 后 1、3 后 2 等):

    光学扫描 位置细分 预处理 细分 表示 特征提取 识别 后处理

这就是他们写的关于表示的内容(#5)

OCR 的第五个组成部分是表示。图像表示 在任何识别系统中都扮演着最重要的角色之一。在 最简单的情况,灰度级或二值图像被馈送到 识别器。然而,在大多数识别系统中,为了 避免额外的复杂性并提高算法的准确性, 需要更紧凑和更有特色的表示。为了这 目的是为每个类别提取一组特征,以帮助 将其与其他类区分开来,同时保持不变 类内特征差异。人物形象 表示方法一般分为三大类 组:(a) 全局转换和系列扩展 (b) 统计 表示和 (c) 几何和拓扑表示。

这是他们写的关于特征提取的内容(#6)

第六个 OCR 组件是特征提取。的目标 特征提取是为了捕捉符号的本质特征。 特征提取被认为是最困难的问题之一 的模式识别。最直接的描述方式 字符是由实际的光栅图像。另一种方法是提取 某些表征符号但不重要的特征 属性。提取这些特征的技术分为 分为三组,即。 (a) 点分布 (b) 变换 和级数展开和 (c) 结构分析。

我完全糊涂了。我不明白什么是代表。据我了解,分割后我们必须从图像中获取一些特征,例如像弗里曼链码这样的拓扑结构,并且必须与学习阶段模型中保存的一些特征相匹配——即进行识别。换句话说——分割——特征提取——识别。我不明白在代表阶段必须做什么。请解释一下。

【问题讨论】:

【参考方案1】:

表示组件采用分割产生的光栅图像并将其转换为更简单的格式(“表示”),该格式保留了类的特征属性。这是为了降低以后识别过程的复杂性。您提到的 Freeman 链码就是这样一种表示形式。

一些(大多数?)作者将表示和特征提取合并为一个步骤,但您的书的作者选择将它们分开处理。更改表示不是强制性的,但这样做可以降低训练和识别步骤的复杂性,从而提高准确性。

在特征提取步骤中,正是从这种更简单的表示中提取特征。提取哪些特征将取决于选择的表示。这篇论文 - Feature Extraction Methods for Character Recognition - A Survey - 描述了 11 种不同的特征提取方法,可以应用于 4 种不同的表示。

提取的特征是传递给训练器或识别器的。

【讨论】:

感谢您的回答。你能解释一下特征提取步骤做了什么吗?因为在大多数书籍中的工作流程是这样的:...分割-特征提取-识别。所以表示是可选的。但从您的回答来看,这意味着始终需要代表。 表示并不总是需要的,一些作者认为表示是特征提取的一部分。我已经更新了我的答案。

以上是关于光学字符识别中的表示是啥?的主要内容,如果未能解决你的问题,请参考以下文章

Python,OpenCV中的光学字符识别(OCR Optical Character Recognition)

如何识别作为光学字符识别 (OCR) 输出的文本中的实体?

光学字符识别。使用tesseract识别里程表

Tesseract:简单的Java光学字符识别

光学字符识别技术

光学字符识别技术