光学字符识别中的表示是啥？

Posted 2023-04-17

技术标签:

【中文标题】光学字符识别中的表示是啥？【英文标题】：What is representation in optical character recognition?光学字符识别中的表示是什么？ 【发布时间】：2017-11-07 20:48:05 【问题描述】：

我正在学习 OCR 并正在阅读这本书 https://www.amazon.com/Character-Recognition-Different-Languages-Computing/dp/3319502514

作者定义了 8 个流程来实现 OCR，一一遵循（2 后 1、3 后 2 等）：

光学扫描位置细分预处理细分表示特征提取识别后处理

这就是他们写的关于表示的内容（#5）

OCR 的第五个组成部分是表示。图像表示在任何识别系统中都扮演着最重要的角色之一。在最简单的情况，灰度级或二值图像被馈送到识别器。然而，在大多数识别系统中，为了避免额外的复杂性并提高算法的准确性，需要更紧凑和更有特色的表示。为了这目的是为每个类别提取一组特征，以帮助将其与其他类区分开来，同时保持不变类内特征差异。人物形象表示方法一般分为三大类组：(a) 全局转换和系列扩展 (b) 统计表示和 (c) 几何和拓扑表示。

这是他们写的关于特征提取的内容（#6）

第六个 OCR 组件是特征提取。的目标特征提取是为了捕捉符号的本质特征。特征提取被认为是最困难的问题之一的模式识别。最直接的描述方式字符是由实际的光栅图像。另一种方法是提取某些表征符号但不重要的特征属性。提取这些特征的技术分为分为三组，即。 (a) 点分布 (b) 变换和级数展开和 (c) 结构分析。

我完全糊涂了。我不明白什么是代表。据我了解，分割后我们必须从图像中获取一些特征，例如像弗里曼链码这样的拓扑结构，并且必须与学习阶段模型中保存的一些特征相匹配——即进行识别。换句话说——分割——特征提取——识别。我不明白在代表阶段必须做什么。请解释一下。

【问题讨论】：

【参考方案1】：

表示组件采用分割产生的光栅图像并将其转换为更简单的格式（“表示”），该格式保留了类的特征属性。这是为了降低以后识别过程的复杂性。您提到的 Freeman 链码就是这样一种表示形式。

一些（大多数？）作者将表示和特征提取合并为一个步骤，但您的书的作者选择将它们分开处理。更改表示不是强制性的，但这样做可以降低训练和识别步骤的复杂性，从而提高准确性。

在特征提取步骤中，正是从这种更简单的表示中提取特征。提取哪些特征将取决于选择的表示。这篇论文 - Feature Extraction Methods for Character Recognition - A Survey - 描述了 11 种不同的特征提取方法，可以应用于 4 种不同的表示。

提取的特征是传递给训练器或识别器的。

【讨论】：

感谢您的回答。你能解释一下特征提取步骤做了什么吗？因为在大多数书籍中的工作流程是这样的：...分割-特征提取-识别。所以表示是可选的。但从您的回答来看，这意味着始终需要代表。表示并不总是需要的，一些作者认为表示是特征提取的一部分。我已经更新了我的答案。

以上是关于光学字符识别中的表示是啥？的主要内容，如果未能解决你的问题，请参考以下文章

Python，OpenCV中的光学字符识别（OCR Optical Character Recognition)

如何识别作为光学字符识别 (OCR) 输出的文本中的实体？

光学字符识别。使用tesseract识别里程表

Tesseract：简单的Java光学字符识别

光学字符识别技术