图像中的徽标识别[关闭]

Posted

技术标签:

【中文标题】图像中的徽标识别[关闭]【英文标题】:Logo recognition in images [closed] 【发布时间】:2011-01-05 16:58:03 【问题描述】:

有谁知道最近关于图像标识识别的学术工作? 请仅在您熟悉此特定主题的情况下回答(我可以自己在 Google 上搜索“标识识别”,非常感谢)。 任何熟悉计算机视觉并做过物体识别工作的人也欢迎发表评论。

更新: 请参考算法方面(您认为合适的方法、该领域的论文、它是否应该适用于现实世界的数据(并且已经过测试)、效率考虑)而不是技术方面(使用的编程语言或是否与OpenCV...) 图像索引和基于内容的图像检索工作也会有所帮助。

【问题讨论】:

如果您能告诉我们您在寻找什么以及您所说的“认真”是什么意思,您可以提高获得好答案的机会。我在计算机视觉/物体识别领域工作了 10 多年,但我什至不确定您所说的“徽标识别”是什么意思。 标识识别是指例如获取包含可口可乐标识/商标的图像,检测标识并将其标记为“可口可乐”。在该领域工作了 10 年对我来说听起来很严肃。(我主要是想避免下面这些信息量不大的答案) 您找到解决问题的替代方法了吗?因为问题是世界上有成千上万个标志,所以识别标志有点困难......我想到了 BoW 的功能,但我们是否对每种标志都有分类? 【参考方案1】:

我在一个项目中工作,我们必须做一些非常相似的事情。起初我尝试使用这个软件使用 Haar 训练技术

OpenCV

它有效,但不是满足我们需求的最佳解决方案。我们的源图像(我们正在寻找徽标的位置)是固定大小的,并且仅包含徽标。因此,我们能够将 cvMatchShapes 与已知的良好匹配一起使用,并比较返回的值以认为匹配良好。

【讨论】:

【参考方案2】:

从事该领域的工作:体育视频数据库中的商标匹配和检索 获取论文的 PDF:http://scholar.google.it/scholar?cluster=9926471658203167449&hl=en&as_sdt=2000

我们使用 SIFT 作为商标和图像描述符,并使用归一化阈值匹配来计算模型和图像之间的距离。在我们最新的工作中,我们已经能够使用元模型大大减少计算量,创建评估存在于同一商标不同版本中的 SIFT 点的相关性。

我想说,由于目前使用的电视标准的视觉质量非常差,因此处理视频通常比处理照片更难。

马可

【讨论】:

【参考方案3】:

我们致力于现实世界图像中的徽标检测/识别。我们还创建了一个数据集 FlickrLogos-32 并将其公开,包括数据、基本事实和评估脚本。

在我们的工作中,我们将徽标识别视为检索问题,以简化多类识别并允许此类系统轻松扩展到许多(例如数千个)徽标类。

最近,我们开发了一种称为 Bundle min-Hashing 的捆绑技术,它将多个局部特征的空间配置聚合成高度独特的特征包。束表示可用于检索和识别。请参阅以下用于徽标检测的示例热图:

您将在[1][2] 的论文中找到有关内部操作、该方法的潜在应用、对其性能的实验以及相关工作的许多参考的更多详细信息。

【讨论】:

您可以在这里找到论文:multimedia-computing.de/wiki/Stefan_Romberg。寻找“Bundle min-Hashing”或我的博士论文。我有一些尚未公开的演示。原型已售出。 所有链接都坏了...【参考方案4】:

您可以在此处尝试使用 SIFT 等本地功能: http://en.wikipedia.org/wiki/Scale-invariant_feature_transform

它应该可以工作,因为标志形状通常是恒定的,所以提取的特征应该匹配得很好。

工作流程将是这样的:

    检测拐角(例如 Harris 拐角检测器) - 对于 Nike 标志,它们是两个尖头。

    计算描述符(如 SIFT - 128D 整数向量)

    在训练阶段记住他们;在匹配阶段,为训练期间获得的数据库中的每个特征找到最近的邻居。最后,您有一组匹配项(其中一些可能是错误的)。

    使用 RANSAC 找出错误的匹配项。因此,您将获得描述从理想徽标图像转换为您找到徽标的矩阵的矩阵。根据设置,您可以允许不同类型的变换(仅平移;平移和旋转;仿射变换)。

Szeliski 的书中有一章 (4.1) 介绍了局部特征。 http://research.microsoft.com/en-us/um/people/szeliski/Book/

附:

    我假设您想在照片中查找徽标,例如查找所有百事可乐广告牌,因此它们可能会被扭曲。如果你需要在屏幕上找到一个电视频道的标志(这样它就不会被旋转和缩放),你可以做得更容易(模式匹配或其他东西)。

    传统的 SIFT 不考虑颜色信息。由于徽标通常具有恒定的颜色(尽管确切的颜色取决于闪电和相机),因此您可能需要以某种方式考虑颜色信息。

【讨论】:

谢谢。这种方法听起来很合理。关于每个功能的最近邻居 - 这听起来非常密集(我计划要识别数千个徽标),您认为什么是优化的好方法?我想到了向量量化或近似最近邻... liza,你是对的,在 128D 中很难找到 NN。当前最先进的技术是通过 kd-tree 或 k-means tree forest 进行近似 NN 搜索。它在 Muja-Lowe FLANN 中实现:people.cs.ubc.ca/~mariusm/index.php/FLANN/FLANN 再次感谢。还发现了这些涉及可扩展和高效图像识别的论文:* Torralba、Fergus、Weiss 的“Small Codes and Large Image Databases for Recognition” * Nister 和 Stewenius 的“Scalable Recognition with a Vocabulary Tree” vlfeat.org 为 MATLAB 和 C 实现了 SIFT(以及其他一些计算机视觉算法) @SuzanCioc 首先,您需要一组徽标训练。例如,您可以拥有由边界框注释徽标的图片。然后您可以提取描述符,并根据提取它们的区域将它们标记为徽标或非徽标。这能回答你的问题吗?

以上是关于图像中的徽标识别[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

使用Tensorflow Object Detection API作为平面图像识别器的最快方法是什么?

使用 TensorFlow 进行图像识别 [关闭]

R中的人脸识别[关闭]

沿图像传递参数以进行图像识别[关闭]

在 OCR(光学字符识别)之前,您会推荐啥软件用于图像增强? [关闭]

推荐OCR软件面对这个识别案例[关闭]