专栏腾讯云高级研究员冀永楠：图像分析那些事︱AI来了

Posted 2021-04-28 腾讯云

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了专栏腾讯云高级研究员冀永楠：图像分析那些事︱AI来了相关的知识，希望对你有一定的参考价值。

“AI来了”邀请到我们腾讯云的高级研究员冀永楠讲述图像分析的那些事儿。

从2012年开始，深度学习席卷了图像识别领域，在图像分类、目标检测、语义分割等领域秒杀了传统的方法。之前也有人写过如何20分钟内得到猫狗分类大赛第二名的卷积神经网络。尽管识别和检测问题是图像分析中难度最高的一部分，在实际应用中，图像问题都是多个问题的组合，而并非单一的识别或者检测问题。

冀永楠表示，本文是简单介绍一下成像和图像分析的基本内容，希望对有兴趣解决图像类问题的同学有所帮助。

冀永楠

诺丁汉大学计算机系博士，欧盟Marie Curie Research Fellow。现为腾讯云大数据AI产品中心高级研究员。

成像方式

理解图像是如何产生的是解决图像类问题的第一步。最常见的成像方式是单反相机——手机相机等相机的成像方式。下图选自参考文献[1]，直观的展示了这种成像的原理。现实生活中遇到的成像方式绝大多是属于这类成像。

【专栏】腾讯云高级研究员冀永楠：图像分析那些事︱AI来了

除此之外，还有如下图中的X-ray，红外，显微，遥感，结构光等多种成像方式。在处理和分析这些图像的时候，理解图像的成像方式和其中的内容表达方式对最后的处理效果会起到关键的基础性作用。

【专栏】腾讯云高级研究员冀永楠：图像分析那些事︱AI来了

以医用CT图像为例，CT图像的像素值代表着位于改像素位置的物质对X光的衰减程度。骨头，金属等可以造成较大衰减的，会呈现高像素值。空气几乎不会造成衰减的，会呈现低像素值。CT像素值有很大的动态范围。普通图像像素值一般是0~255。CT的像素值则是-1024~1024。检查不同部位和不同疾病的时候，关注的像素值范围有所不同。例如，在AI医疗的肺结节检测应用场景中，主要关注-1000~200的区域。

图像处理

图像处理问题可以大致的分为低、中、高三个层次。低层处理主要是图像的增强、降低噪声、边缘等特征的提取、基本的压缩等。中层的图像处理方法一般解决的是图像的分类，物体的检测、定位、分割以及图像的语义分割等。高层的处理是比较复杂的综合应该用。比如图像的自动注释，人脸和人脸姿态的识别，自动驾驶等等。

高级的图像处理问题需要分解为多个中低级的问题。一些端到端的深度网络，也会将一个网络分成几个子网络，利用辅助输入输出进行训练。其实本质也是将复杂的高层问题分解为中级和低级的子问题来解决。比如常见的通过人脸比对进行身份验证，一般都包括了人脸检测定位，人脸关键点定位，特征计算和比对的过程。优图的OCR文字识别，也是由背景识别等三大引擎（定位引擎、字段识别引擎）支撑的。

传统的图像分析算法中，各种滤波器的设计占有很大的一部分比例。理解滤波器的原理和使用的场景是做图像分析工作中很大的一块，也是比较痛苦的一块。因为滤波器的种类繁多，原理不一。对于场景的适用性需要经验来判断。比较成功的计算特征的方法有，边缘特征，Scale-invariant feature transform（SIFT），Histogram of Gradient （HOG）等。

【专栏】腾讯云高级研究员冀永楠：图像分析那些事︱AI来了

在特征计算之上，会设计出和问题相关的模型来描述和解决各种中层的图像问题。比如，对于人体检测和定位，Deformable Parts Model(DPM)在深度网络普及之前是效果非常好的一种模型。这种模型在HOG的特征上，将一个整体目标分成几个小目标进行初级识别，之后综合判断小目标之间的关系来定位整体目标的方法。

传统方法对于分割的问题基于两点，一是分割的边界一般处于图像梯度特征较大的地方；二是分割出来的区域的形状一般都是比较规则的。Active Shape, level set 都是类似的方法。更为复杂一些的，可以预设分割出来的物体大概的样子。这种预设称为A Priori Information。

深度学习

卷积神经网络的崛起可以说秒杀了很多传统方法。在分割，分类，检测等等几乎所有的中层问题上，深度学习算法在性能上都超出了传统方法。尽管卷积神经网络（CNN）本质上可以认为是局部的滤波器，但是好在至少数据充足，不需要对滤波器进行过多的设计。深度学习框架可以很大程度上自动优化好最后结果。不同的问题采用不同的网络结构。比如分割问题一般采用反卷积（FCN）网络。目标检测问题采用Faster RCNN网络。

【专栏】腾讯云高级研究员冀永楠：图像分析那些事︱AI来了

深度网络进化朝着准确度越来越高，应用越来越广的方向发展。一些原有的图像分析的业界测量标准，例如ImageNet图像分类，已经变得易如反掌而退出了舞台。人脸识别也从小数据库，简单场景向千万，甚至亿级数据库，全场景覆盖发展。

应用多多

腾讯云图像识别能力已经在图像多标签分类、敏感图片审核（色情/暴恐/政治人物等）、医学影像识别、人/车/物结构化识别及文字识别（OCR）等细分化场景中进行应用，并在多个领域实现了落地。敏感图片审核技术对色情、暴恐等的识别准确率高达99%，成为网络环境的净化器。在医学领域，腾讯已与超过100家医院签署战略合作，已应用到肺癌早筛、食管癌早筛等项目中，显著提升看病水平和效率。OCR文字识别系统也广泛应用在金融，酒店，快运等等单据和身份证的识别中，取得了良好的实用效果。