也谈谈图像识别

Posted 小艺术课堂

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了也谈谈图像识别相关的知识,希望对你有一定的参考价值。

图像识别里的分层记忆,情绪,逻辑,以及各部分之间的连接


等我能退休的时候,我会去MIT, Standford,剑桥牛津做游学研究,教书育人,做点简单有意义的事

你们跟我一起去,组成团

希望这一天能早点到来


给我些时间,我会成全你们每一个


1 分层记忆


有过ps经验的人都知道,每一张图片有很多的分层(layer),也就是说,图像里的信息是分层存储的。


目前的机器识别能做到的是“解读”图片里的分散的信息,把这些能赋予属性的信息通过大量的图片识别,“告诉”机器是什么。通过这些量级的“训练”,机器能够识别画面里的简单信息,例如一只猫坐在床上,旁边有个小女孩在电脑上工作。


不远的将来,猫的身上有什么样的花纹,身形大小,眼睛的形状,以及什么样的表情,这些都会被机器识别。


挑战也真是很多,例如能否判断图片信息的层次,实现逐层机器阅读。


这种深层的机器识别在医学场景里的使用会是非常有帮助的,例如分析某个器官组织的切片。


这不再是单纯识别一张图片里的各种包含可识别特征的信息,而是回到图像生成的顺序跟过程,实现机器图像“阅读”。


量化的过程是图像识别技术的关键,海量数据存储,海量数据阅读。



2 情绪


图像里的信息也是带有“情感”的,这跟我们在某种状态里理解的情感不同,是被拟人化了的。


举个例子,画家在画布上创作时,堆积色彩颜料的过程,在机器识别的层面上,会是各种色彩名称的罗列,如果没有艺术家为这些色彩定义冷暖调,饱和度,色阶的话。当我们知道了红色是暖色,蓝色是冷色时,进而知道红色蓝色的内阶也会有偏冷偏暖的色调时,这时色彩被赋予了“温度”。


温度的高低跟情绪就有了关联。想想看,一张北欧格调的家居照片会让人很安静,当然,简洁明快的包豪斯风格也会让人心情跳跃。


机器识别的第二个阶段(stage),是色彩的识别


也就是说,机器在阅读海量图像信息,被“训练”识别各种事物的属性时,也同时在做着深层的色彩识别,每个像素这时就变成了只有盲人才能阅读的“点”状文字。当然,每个像素块包含的信息量远远超过一个“点”所含有的。


这个阅读过程在算法层面上,更接近信息被”打包“(packaging)。想象一下,如果每秒钟能进行百万级别的信息打包,或许相当于我们阅读一个汉字的偏旁,或者英文单词里的一个字母,或者一个像素。


打包的量级叠加,完成一个个图像信息的识别过程。


这像极了三岁小朋友大量阅读图片,无条件吸收知识信息的过程,可能不会完全理解,但是这个大量存储记忆的过程,建造着理解能力的基础。


在看多了苹果的图片之后,小朋友会条件反射说出苹果的名字,当这样的能力在一个个发散的节点上连成一个平面时,就慢慢形成了真正的理解,如同拼图的一小块,实现这个过程离不开一个重要的能力,逻辑。



3 逻辑


有效的机器阅读依赖有效的阅读方式和路径


很多时候会很好奇,小小的蚂蚁能够识别“眼前”的是食物,还是不明身份的障碍物,这是怎么做到的。


蚂蚁有灵敏的嗅觉器官和传感器来帮助判断身边的所有事物,这像不像逻辑判断。


一系列是或否的自问自答,完成了对前方事物的识别,即使没有我们的理解能力所获得的事物的信息,大概很多信息是不必要的,蚂蚁也能做到这样的“理解“。


这样的理解是有效而专注的。实际上做的是对信息的筛选,为完成一个特定的目标,选择最有效的信息。


机器学习借鉴的也是这样一个有效的信息选择过程,把最符合条件的信息留下来,先不去理会暂时不能派上用场的信息。


当然,暂时无效的信息也能被打包,等待实现对等的目标。


问题是,有效的机器阅读方式和路径,是立体的(dimensional),还是逐层的(layer by layer)。


立体阅读,在技术日益成熟时,能在单个像素里实现最完全,完整的机器识别,想象一下皮肤里包含的层次。单个像素机器阅读时,先完成表皮层识别,接着进入真皮层识别,然后继续深入到脂肪层,这样一直深入到像素里的图像信息底层。


这时的单个像素变成了一个立体的拼图块,包含大量有效的信息,每一边都有着开放的逻辑关联,等待着来自相邻像素的有效信息的对接。这个过程是time-consuming的。


逐层阅读,是把一个图像层面(layer)的所有像素里包含的有效信息识别出来,例如回到一只猫坐在床上,如果机器只把这个图像第一层的信息读出来的话,大概会是单色调(monochrome)的,读到全部信息的轮廓,这对有效信息的筛选会很有帮助。


这样在进入整个图像第二层面时,会把机器阅读的目标范围缩小,当然也会有特别的情况是,在第一层面无法阅读的信息到了这一层反倒能识别出来。


这样的过程一直重复,直到抵达图像的底层,然后再向上重复识别。



4 各部分之间的连接


机器识别信息时,像素之间的逻辑关联也包含无数种。


不同的逻辑关联代表着机器对单个像素里不同程度的信息识别


想象一个互相联系着的世界。


当我们用手机拍摄一张照片时,手机会自动识别照片拍摄的地点,被拍摄的人物,景物,甚至人物身上所穿的衣服,所携带的物品,这些简单信息都能被识别出来。


例如小朋友身穿白色体T-shirt在北京海洋世界游玩,手中拿着一个苹果,站在一群游着的鱼面前。


同一个小朋友在另一张照片里出现时,如果碰巧穿着同样的白色衬衫,机器能识别出衬衫和小朋友曾经在海洋世界里玩的故事。


这里的不同逻辑关联会为机器阅读提供更多的背景,帮助我们更好理解一个图像所要表达的故事,传递的信息。


这需要各种专业的云服务如阿里云,谷歌云的技术支持,让我们生活的世界联系更紧密,交流更及时,信息更通畅


科技服务的质量也更有保障。



以上是关于也谈谈图像识别的主要内容,如果未能解决你的问题,请参考以下文章

什么是图像识别?图像识别是如何实现的?

Opencv 图像识别Android实战(识别扑克牌 4.图像识别扫盲)

帮你科普图像识别,前景不可限量?

图像识别是否还有继续研究的价值?

初识图像识别之颜色特征

车险行业图像识别技术深度剖析