图像中的徽标识别[关闭]

Posted 2023-02-16

技术标签:

【中文标题】图像中的徽标识别[关闭]【英文标题】：Logo recognition in images [closed] 【发布时间】：2011-01-05 16:58:03 【问题描述】：

有谁知道最近关于图像标识识别的学术工作？请仅在您熟悉此特定主题的情况下回答（我可以自己在 Google 上搜索“标识识别”，非常感谢）。任何熟悉计算机视觉并做过物体识别工作的人也欢迎发表评论。

更新：请参考算法方面（您认为合适的方法、该领域的论文、它是否应该适用于现实世界的数据（并且已经过测试）、效率考虑）而不是技术方面（使用的编程语言或是否与OpenCV...）图像索引和基于内容的图像检索工作也会有所帮助。

【问题讨论】：

如果您能告诉我们您在寻找什么以及您所说的“认真”是什么意思，您可以提高获得好答案的机会。我在计算机视觉/物体识别领域工作了 10 多年，但我什至不确定您所说的“徽标识别”是什么意思。标识识别是指例如获取包含可口可乐标识/商标的图像，检测标识并将其标记为“可口可乐”。在该领域工作了 10 年对我来说听起来很严肃。（我主要是想避免下面这些信息量不大的答案）您找到解决问题的替代方法了吗？因为问题是世界上有成千上万个标志，所以识别标志有点困难......我想到了 BoW 的功能，但我们是否对每种标志都有分类？ 【参考方案1】：

我在一个项目中工作，我们必须做一些非常相似的事情。起初我尝试使用这个软件使用 Haar 训练技术

OpenCV

它有效，但不是满足我们需求的最佳解决方案。我们的源图像（我们正在寻找徽标的位置）是固定大小的，并且仅包含徽标。因此，我们能够将 cvMatchShapes 与已知的良好匹配一起使用，并比较返回的值以认为匹配良好。

【讨论】：

【参考方案2】：

从事该领域的工作：体育视频数据库中的商标匹配和检索获取论文的 PDF：http://scholar.google.it/scholar?cluster=9926471658203167449&hl=en&as_sdt=2000

我们使用 SIFT 作为商标和图像描述符，并使用归一化阈值匹配来计算模型和图像之间的距离。在我们最新的工作中，我们已经能够使用元模型大大减少计算量，创建评估存在于同一商标不同版本中的 SIFT 点的相关性。

我想说，由于目前使用的电视标准的视觉质量非常差，因此处理视频通常比处理照片更难。

马可

【讨论】：

【参考方案3】：

我们致力于现实世界图像中的徽标检测/识别。我们还创建了一个数据集 FlickrLogos-32 并将其公开，包括数据、基本事实和评估脚本。

在我们的工作中，我们将徽标识别视为检索问题，以简化多类识别并允许此类系统轻松扩展到许多（例如数千个）徽标类。

最近，我们开发了一种称为 Bundle min-Hashing 的捆绑技术，它将多个局部特征的空间配置聚合成高度独特的特征包。束表示可用于检索和识别。请参阅以下用于徽标检测的示例热图：

您将在[1][2] 的论文中找到有关内部操作、该方法的潜在应用、对其性能的实验以及相关工作的许多参考的更多详细信息。

【讨论】：

您可以在这里找到论文：multimedia-computing.de/wiki/Stefan_Romberg。寻找“Bundle min-Hashing”或我的博士论文。我有一些尚未公开的演示。原型已售出。所有链接都坏了...【参考方案4】：

您可以在此处尝试使用 SIFT 等本地功能： http://en.wikipedia.org/wiki/Scale-invariant_feature_transform

它应该可以工作，因为标志形状通常是恒定的，所以提取的特征应该匹配得很好。

工作流程将是这样的：

检测拐角（例如 Harris 拐角检测器） - 对于 Nike 标志，它们是两个尖头。

计算描述符（如 SIFT - 128D 整数向量）

在训练阶段记住他们；在匹配阶段，为训练期间获得的数据库中的每个特征找到最近的邻居。最后，您有一组匹配项（其中一些可能是错误的）。

使用 RANSAC 找出错误的匹配项。因此，您将获得描述从理想徽标图像转换为您找到徽标的矩阵的矩阵。根据设置，您可以允许不同类型的变换（仅平移；平移和旋转；仿射变换）。

Szeliski 的书中有一章 (4.1) 介绍了局部特征。 http://research.microsoft.com/en-us/um/people/szeliski/Book/

附：

我假设您想在照片中查找徽标，例如查找所有百事可乐广告牌，因此它们可能会被扭曲。如果你需要在屏幕上找到一个电视频道的标志（这样它就不会被旋转和缩放），你可以做得更容易（模式匹配或其他东西）。

传统的 SIFT 不考虑颜色信息。由于徽标通常具有恒定的颜色（尽管确切的颜色取决于闪电和相机），因此您可能需要以某种方式考虑颜色信息。

【讨论】：

谢谢。这种方法听起来很合理。关于每个功能的最近邻居 - 这听起来非常密集（我计划要识别数千个徽标），您认为什么是优化的好方法？我想到了向量量化或近似最近邻... liza，你是对的，在 128D 中很难找到 NN。当前最先进的技术是通过 kd-tree 或 k-means tree forest 进行近似 NN 搜索。它在 Muja-Lowe FLANN 中实现：people.cs.ubc.ca/~mariusm/index.php/FLANN/FLANN 再次感谢。还发现了这些涉及可扩展和高效图像识别的论文：* Torralba、Fergus、Weiss 的“Small Codes and Large Image Databases for Recognition” * Nister 和 Stewenius 的“Scalable Recognition with a Vocabulary Tree” vlfeat.org 为 MATLAB 和 C 实现了 SIFT（以及其他一些计算机视觉算法） @SuzanCioc 首先，您需要一组徽标训练。例如，您可以拥有由边界框注释徽标的图片。然后您可以提取描述符，并根据提取它们的区域将它们标记为徽标或非徽标。这能回答你的问题吗？

以上是关于图像中的徽标识别[关闭]的主要内容，如果未能解决你的问题，请参考以下文章

使用Tensorflow Object Detection API作为平面图像识别器的最快方法是什么？

使用 TensorFlow 进行图像识别 [关闭]

R中的人脸识别[关闭]

沿图像传递参数以进行图像识别[关闭]

在 OCR（光学字符识别）之前，您会推荐啥软件用于图像增强？ [关闭]

推荐OCR软件面对这个识别案例[关闭]