计算机视觉的历史

Posted 2020-09-25

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了计算机视觉的历史相关的知识，希望对你有一定的参考价值。

计算机视觉的最终目标是让计算机能像人类那样利用视觉观察和理解世界，具有自主适应变化环境的能力。下面简短介绍计算机视觉的发展历史：

第一阶段：20世纪50年代，计算机视觉还属于模式识别领域，当时的主要工作是二维图像的分析和识别。尽管属于模式识别领域，但当时的模式识别还不是一个独立的学科，直到60年代，模式识别才成为一门独立的学科。

第二阶段：20世界60年代中期，Robert的研究工作开创了以理解三维场景为目标的三维计算机视觉研究。Robert的系统能从二维数字图像中抽取多面体的线画，利用已知多面体的模型分析分析线画中对应的物体在三维空间中真实的位置。由于Robert的研究给人们极大的启发，使计算机视觉进入蓬勃发展时期。

第三阶段：20世纪70年代，David Marr在计算机视觉历史上画上了浓墨重彩的一笔，他提出了第一个较为完善的视觉系统框架——视觉计算理论框架。他认为视觉是一个复杂的信息处理过程，并有不同的信息表达方式和不同层次的处理过程，而最终的目的是实现计算机对外部世界的描述。由此他提出三个层次的研究方法，计算理论层、表征与算法层、实现层。并提出了自上而下，没有反馈的视觉处理框架，他认为视觉主要是获得物体的三维形状，并把获得过程分为三个阶段：

原始基元图（primal sketch）。基元图由二维图像中的边缘点，直线，曲线、顶点等基本几何元素构成。
2.5维图（2.5dimensional sketch）。以观测者为中心的坐标系中，由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等，这些信息的包含了深度信息，但不是真正的物体三维表示，因此称为二维半图（另一部分是物体背面或是被遮挡的部分）。
3维模型（3dimensional model）。在以物体为中心的坐标系中，由输入图像、基元图、二维半图来恢复、表示和识别三维物体。

Marr的理论给了我们研究计算机视觉许多珍贵的哲学思想和研究方法，同时也给计算机视觉研究领域创造了许多研究起点。到了二十世纪80年代，计算机视觉领域进入前所未有的繁荣阶段。

现阶段：由于Marr派（3D重建）没有解决计算机视觉问题，且在一线工程中像识别、导航中存在一系列问题无法解决，出现了主动视觉、定性视觉、目的视觉等学派，结束了重建理论一同天下的局面（文章结尾详细介绍Marr视觉计算理论的形成以及计算机视觉理论之争）。

现在计算机视觉现在的两大任务分别是：重建、识别。

三维重建的步骤：

图像获取
相机标定
特征提取
立体匹配
三维重建

识别：

识别重建后的三维物体（过程如下图）
识别二维图像中的物体

技术分享

Marr视觉计算理论的形成

Bela Julesz是Bell 实验室的匈牙利籍的计算机工程师，在处理航测数据时，他知道利用立体图对可以从伪装中很容易的发现目标。例如对英国40 年代用飞机和氢气球从两个邻近点拍摄的德国科隆莱茵河浮冰立体图中，可以看到在浮冰中挟带着有趣的深度表面，尤其是在桥的防波柱附近。但是当他读了一些心理学有关立体视觉的文献时，大吃一惊的发现，当时心理学界流行的观点是立体视觉需要先单眼识别。50年代末，刚好Bell 实验室有了大型的计算机，为了证明自己的观察（工程界的常识），他用计算机设计了有视差的随机点立体图对（RDS-random-dot stereogram），这些单眼看起来完全无序的图像到了立体镜下，就出现了设计要求的各式各样的深度图案。证实立体视觉前于识别，甚至能够改变原来的单眼图形。

Julesz的工作震惊了学术界，但是文章的发表很不顺利，他投到美国光学学会会刊的文章被当时光学界的权威K Ogel 否决了。幸运的是他得到了Bell 实验室领导的支持，发在实验室的杂志上。这样一个里程碑似的计算机设计改变了立体视觉理论研究。为视觉研究打开了一扇新的门。

晚年Julesz在谈到自己的工作时，说他之所以能设计RDS，是因为他是一个计算机工程师。他认为RDS的出现是两种文化的冲突，两种语言的交汇（工程和心理学），他不埋怨K Ogel。他说对于一个年轻的科学工作者来说被一个有名的学者作为学术上的对手，比有一个有力的支持者更有益。

RDS很快被生物物理所的郑竺英介绍到到中国来，她与海军总院的的眼科医生彦少明合作，一起把RDS用到立体视觉的检查上，在1985年出版了国内第一本“立体视觉检查图”，成了中国特有的颜氏标准。

RDS的出现引起了立体视觉理论的革命，RDS使人们认识到立体视觉产生在识别之前，只要有视差，不需要单眼形式知觉，就能产生立体感。这一重大发现使得麻省理工大学（MIT）人工智能（AI）实验室的Marr 想到，可以利用摄像机获得的两个有视差的图像，测量对应点之间的视差，就可以恢复物体和景物的深度，从而重建并识别图像中的物体，完成视觉的任务。他提出了模型，对视觉问题进行了理论分析，但他得了白血病，在1980年35岁的英年早逝。他的同事和朋友将他的遗作整理出版，书名为“Vision：A Computational Investigation into the Human Representation and Processing of Visual Information” 翻译成中文名为”视觉计算理论“（1988，译者：姚国正，刘磊，汪云九。）

Marr1945年出生在英国，毕业于剑桥三一学院，本科，硕士主修数学，博士方向是理论神经科学，毕业论文（1969-1971）关于哺乳类的脑功能。他关于小脑，海马的论述，直到30年后依然能为解剖，生理数据检验。1973年他来到MIT 的AI研究所作为访问学者，77年得到心理系的教职，80年成为终生教授。

他的学术背景，使他能用数学方法去研究脑的功能。考虑到视觉研究一直被认为是了解脑功能的突破口，所以从七十年代他开始了对于视觉模型的理论研究。

在视觉计算理论一书中，Marr回顾了从Lattvin的青蛙小虫侦察器，Gross 的手检测器，Barlow的神经元教义，祖母细胞等五十，六十年代生理学的研究，指出七十年代后有关研究报告中断，说明祖母细胞的不足凭信。对图像处理专家A Rosenfeld的经验法也表示了批评。提出要在更高层次，一般的考虑问题。他从信息理论的角度，确定视觉是一种信息处理过程。他认为要对这种过程分析，首先是要了解外部的景物和物体在脑内部是如何被表象（表征，representation）的。（译文在有关表象内容的翻译有些含糊，因此中文的“视觉计算理论”给理工科出身的工程计算方面的研究者带来很多困惑。按照心理学百科全书的解释，表象（征）可以理解为信息在长时记忆中的存贮方式，这样问题就比较清楚了。）

他指出任一个信息处理机需要三个层次的工作：1，计算理论；2，表象和算法；3，硬件实现。他指出了即然视觉是一个信息处理问提，就可以被看作一个信息的表象问题，也是一个如何推导出这种表象的计算问题，和如何执行上述两种任务的计算机体系结构的问题。经过分析他认为视觉的任务就是从图像中得到一个完全确定的形状描述。需要三个表象阶段：（1），二维图形性质的表象，例如光强度的变化。（2）以观察者中心的坐标系中的可见表面性质的表象，其中包括表面朝向，离观察者的距离，以及朝向和距离的不连续性；表面的反射情况，以及对主要照明情况的某种粗略的描述。（3）被观察形状三维结构和组织的以物体为中心的表象，以及在这种坐标系下对物体表面性质的一些描述。

全书的重点在表面性质的表象，被称为2.5维表象。计算的依据是Julesz的RDS 实验结果：只要视差不需要单眼形状识别，就能从随机点立体图对中得到物体的立体视，换言之得到物体各点上的深度。方法就是依据位置略有差别的两幅景物立体图片，找出其中对应物体特征点的视差，用简单几何的计算恢复深度。困难就在于寻找立体图中的对应点，被称为对应性问题。Marr 为此作了一些假设。唯一性，连续性，内极线等并把遮挡存在时双眼不对称区作为噪声抛弃。

这本书站在哲学，心理学一般理论的高度，通过对立体视觉，神经生理学，病理学的实验结果分析入手，拿出具体的计算理论和方法，这对于多年在一线工作，而找不到一个一般理论指导，仅靠经验和试错法计算机视觉界来说，于同甘露，一时人心拯奋，以为不出十年通用的计算机视觉系统就会出现。据上海交通大学图像所的李介谷教授1992年回忆（PR AI 266-271），1984年他在加拿大蒙特里尔召开的国际模式识别会议上，不止一次地听到国外有关人士以兴奋的口气说起：“用不了五年，人们一定可以创造出类比于人类视觉的计算机视觉系统。”

计算机视觉理论之争

但是后来不论是在理论还是在实践方面，3D重建理论所碰到的麻烦是当时完全没有想到的。

1988年，IEEE会刊组织了第一个有关计算机视觉的专题。其中马里南大学自控所的Rosenfeld在介绍计算机视觉的3D 模式时，就专门介绍了Marr的理论，结构框图中专门介绍2.5维表面朝向，不过他将Marr的重建归结于“形状从X”方法类。而 Rosenfeld 的同事Aloimonos就在他的视形状计算一文里，指出Marr的一般理论在实际工程中是无能的，因而在开发实际系统时用形状从X（阴影，纹理，轮廓，运动，立体视）比较现实，提出了主动视觉。但是，Aloimonos的文中还是强调要按照Marr的精神做，可见过了6年，工程学术界已经发现Marr的理论的一些问题，尤其是一线的做识别，导航，避障系统的研究人员，但此时，谁也还没有公开指责这种一般高大全的理论。

在这个专题中，宾州大学计算机系系主任Ruzena Bajcsy系统介绍了主动视觉，将其作为知觉的控制策略和模型。密西根大学电机及计算机系的Q Stout 为了解视觉问题，提出匹配视觉算法到并行结构。另外，图像的并行算法也在此专题的多篇文章里被提出。而Marr 的同事和合作者T Poggio 则解释早期视觉是个病态提出的问题，都是不适定的，需要专门的算法和并行的硬件，他通过研究，引入一种特殊的正则化方法来解这个问题。

1991年一月，吃够了3D重建苦头的计算机视觉界的怨气，在国际知名的杂志“CVGIP：IMAGE UNDERSTANDING”组织的第一次有关计算机视觉理论和实践的讨论中大爆发。实际工作者对当时的理论误导实际研究工作反映强烈。密西根大学电机及计算机系的Ramesh Jain 及斯坦福大学Thomas Binford 写了计算机视觉中的“无知，近视及天真”一文批评计算机视觉界既缺少理论也缺少实验，过分重视用形状从X的研究上，认为像路灯下的醉鬼，和皇帝的新衣（因为交叉学科效应，大幅度的跨学科，以至一个领域的专家（计算机）会被另外领域（数学，心理学）的忽悠，发生从众效应，没有重视分割和信息的表象问题的研究。

这次讨论中，马里南大学的Aloimonos和 Rosenfeld大致同意 Jain 及Binford的看法，认为Marr的重建理论对机器视觉系统来说是太高，没有必要。但是，他们为Marr的理论辩解说，理论与实践的脱节是因为计算量太大，太复杂。他们认为计算机视觉的目的是为了研究完成某一任务需要哪些视觉信息，并且如何从图像中获得这些信息，即在复杂场景中运动和识别有关物体，不必要完全恢复客观世界，换言之，需要有目的的定性视觉完成导航和识别。

中国学术界迅速回应了这次讨论，1992年12月“模式识别与人工智能”杂志组织了一个对应的专题，由国内计算机界著名学者发表了一组文章，参加的有宣国荣，李介谷，吴立德，边肇祺等。这组专题认为计算机视觉几十年的工作还是有成积的，出了不少专用系统，如游泳运动员训练系统，漫步机器人，占斧式巡航导弹等。Marr的理论还是应该得到充分肯定，争论是有益的，计算机视觉要更多的面向应用。

但是计算机视觉的问题并没有解决。实际工作者的批评声音越来越大，主动视觉，定性视觉，目的视觉大有取代3D重建理论之势。3D重建理论学派坐不住了，1994年七月由耶鲁大学心理系的Michale Tarr及计算机系的 Michael Black联合在CVGIP：IMAGE UNDERSTANDING发文，捍卫重建学派。引起了计算机视觉理论界第二次大专题讨论（对话），一共十一篇文章，因为关系计算机视觉各流派理论的生死存亡，也是最重要的一次讨论。

第一篇文章是Michale Tarr 和 Michael Black的”对话：在视觉中表象角色的计算与演化展望“(“DIALOGUE: A Computational and Evolutionary Perspective on the Role of Representation in Vision”)，文中，他们指出目的学派近来一直批评一般视觉的重建理论无成果和不实际，想以强调功能和任务的目的视觉取而代之，但是重建研究是可行的，为理解和模型人类及机器的一般目的视觉提供框架，从演化展望的视觉目的去检验，包括光流的恢复都支持这种假说。一些具体情况下，目的研究可能是合适的，但是它对人类广泛的视任务，就不足了。他们强调要理解视觉，认为视觉问题是反光学问题，本身就是病态提出的，参考和限制本身就是不可避免的，主动视觉是好的，他们也不拒绝目的视觉研究，认为他是视觉研究的一个流派但是更适合说明青蛙的行为，而不是人类，，如果目的视觉是一个一般视觉的限制版，当然更好。

早就憋了一肚子气的目的学派的Aloimonos作了回答。在我学习到什么（What I Have Learned）一文中，他首先尖锐提出，视觉是什么？他说他理解的视觉就是识别过程，是联想，解释，指导，及选择的过程，与重建没有一毛钱的关系。他批评说，Marr认为视觉是一个从给定图像中得出完全精确景物和性质的表象的过程，这是一个一般的建议，而一般只存在在理论中。而人的视觉是生物视觉的特例，而按蜜蜂视觉研究专家Horridge 的观点，人和蜜蜂在视觉控制行为中没有什么不同，人类不计算光流。光流方程中，一个方程两个未知数。不加附加限制根本不可解。视觉有目的，目的就是行动。目的，定性，主动三位一体，一个回答作什么，第二怎么做，第三怎么获得数据。

13篇论文中，最有意义的是Simon Edelman 的，他提出了解决的方案：没有重建的表象。

他首先指出，从哲学上来说，重建的表象可以追索到Aristotle，Hume，及Berkeley，他们认为景物的表象是能够适应任何视觉任务的被表示物体的几何复制。他批评说，重建的表象，从实用主义的角度来说，是一种可怜的选择，理由有三个：第一，实际工程的计算说明从没有任何限制的真实数据中恢复简直是不可能的；其次，即使可以计算，也没有必要；第三重建的景物只有白痴才能理解。然后他给出了解决的办法，他从洛克的“人类理解论”中找到了灵感。洛克在智力表象的语义问题部分建议，一个概念能够表象（示）一个物体，不需要像Aristotle提出的在任何意义上类似该物，只要他能被该物自然可预测的激发就行。

他介绍用微电极作的电生理实验发现猴MT （ Middel temporal，中颞）细胞对视域中特定物体发放。而近年D Perrett等在灵长类IT（inferotemporal cortex）上再次发现能对面孔发放的面孔诊察细胞指出面孔可能是被表征在IT。

他最后提出可以在Gibson 的直接知觉和Marr的重建表象中间找一个合适的位置。由没有重建的表象在视觉理论中起关键作用。在Brook 极端的没有表象的目的视觉，和Marr没有目的的重建法式间作一个调和。

整个讨论专题以主流的重建学派接纳目的学派为结束。

文章引用来自：王天珍老师的《计算机视觉的前世今生》

参考文献：

[1]潘春宏.计算机视觉简述

[2]顾伟康.计算机视觉的发展概况

以上是关于计算机视觉的历史的主要内容，如果未能解决你的问题，请参考以下文章

朱松纯访谈录：初探计算机视觉的三个源头人工智能

计算机视觉开篇---读史可以明智

国科大人工智能学院《计算机视觉》课 —运动视觉—运动表达和行为识别

自然语言处理(nlp)比计算机视觉(cv)发展缓慢，而且更难！