也谈谈图像识别

Posted 2021-04-07 小艺术课堂

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了也谈谈图像识别相关的知识，希望对你有一定的参考价值。

图像识别里的分层记忆，情绪，逻辑，以及各部分之间的连接

等我能退休的时候，我会去MIT, Standford，剑桥牛津做游学研究，教书育人，做点简单有意义的事

你们跟我一起去，组成团

希望这一天能早点到来

给我些时间，我会成全你们每一个

1 分层记忆

有过ps经验的人都知道，每一张图片有很多的分层（layer），也就是说，图像里的信息是分层存储的。

目前的机器识别能做到的是“解读”图片里的分散的信息，把这些能赋予属性的信息通过大量的图片识别，“告诉”机器是什么。通过这些量级的“训练”，机器能够识别画面里的简单信息，例如一只猫坐在床上，旁边有个小女孩在电脑上工作。

不远的将来，猫的身上有什么样的花纹，身形大小，眼睛的形状，以及什么样的表情，这些都会被机器识别。

挑战也真是很多，例如能否判断图片信息的层次，实现逐层机器阅读。

这种深层的机器识别在医学场景里的使用会是非常有帮助的，例如分析某个器官组织的切片。

这不再是单纯识别一张图片里的各种包含可识别特征的信息，而是回到图像生成的顺序跟过程，实现机器图像“阅读”。

量化的过程是图像识别技术的关键，海量数据存储，海量数据阅读。

2 情绪

图像里的信息也是带有“情感”的，这跟我们在某种状态里理解的情感不同，是被拟人化了的。

举个例子，画家在画布上创作时，堆积色彩颜料的过程，在机器识别的层面上，会是各种色彩名称的罗列，如果没有艺术家为这些色彩定义冷暖调，饱和度，色阶的话。当我们知道了红色是暖色，蓝色是冷色时，进而知道红色蓝色的内阶也会有偏冷偏暖的色调时，这时色彩被赋予了“温度”。

温度的高低跟情绪就有了关联。想想看，一张北欧格调的家居照片会让人很安静，当然，简洁明快的包豪斯风格也会让人心情跳跃。

机器识别的第二个阶段（stage)，是色彩的识别。

也就是说，机器在阅读海量图像信息，被“训练”识别各种事物的属性时，也同时在做着深层的色彩识别，每个像素这时就变成了只有盲人才能阅读的“点”状文字。当然，每个像素块包含的信息量远远超过一个“点”所含有的。

这个阅读过程在算法层面上，更接近信息被”打包“（packaging）。想象一下，如果每秒钟能进行百万级别的信息打包，或许相当于我们阅读一个汉字的偏旁，或者英文单词里的一个字母，或者一个像素。

打包的量级叠加，完成一个个图像信息的识别过程。

这像极了三岁小朋友大量阅读图片，无条件吸收知识信息的过程，可能不会完全理解，但是这个大量存储记忆的过程，建造着理解能力的基础。

在看多了苹果的图片之后，小朋友会条件反射说出苹果的名字，当这样的能力在一个个发散的节点上连成一个平面时，就慢慢形成了真正的理解，如同拼图的一小块，实现这个过程离不开一个重要的能力，逻辑。

3 逻辑

有效的机器阅读依赖有效的阅读方式和路径。

很多时候会很好奇，小小的蚂蚁能够识别“眼前”的是食物，还是不明身份的障碍物，这是怎么做到的。

蚂蚁有灵敏的嗅觉器官和传感器来帮助判断身边的所有事物，这像不像逻辑判断。

一系列是或否的自问自答，完成了对前方事物的识别，即使没有我们的理解能力所获得的事物的信息，大概很多信息是不必要的，蚂蚁也能做到这样的“理解“。

这样的理解是有效而专注的。实际上做的是对信息的筛选，为完成一个特定的目标，选择最有效的信息。

机器学习借鉴的也是这样一个有效的信息选择过程，把最符合条件的信息留下来，先不去理会暂时不能派上用场的信息。

当然，暂时无效的信息也能被打包，等待实现对等的目标。

问题是，有效的机器阅读方式和路径，是立体的（dimensional)，还是逐层的(layer by layer)。

立体阅读，在技术日益成熟时，能在单个像素里实现最完全，完整的机器识别，想象一下皮肤里包含的层次。单个像素机器阅读时，先完成表皮层识别，接着进入真皮层识别，然后继续深入到脂肪层，这样一直深入到像素里的图像信息底层。

这时的单个像素变成了一个立体的拼图块，包含大量有效的信息，每一边都有着开放的逻辑关联，等待着来自相邻像素的有效信息的对接。这个过程是time-consuming的。

逐层阅读，是把一个图像层面(layer)的所有像素里包含的有效信息识别出来，例如回到一只猫坐在床上，如果机器只把这个图像第一层的信息读出来的话，大概会是单色调（monochrome）的，读到全部信息的轮廓，这对有效信息的筛选会很有帮助。

这样在进入整个图像第二层面时，会把机器阅读的目标范围缩小，当然也会有特别的情况是，在第一层面无法阅读的信息到了这一层反倒能识别出来。

这样的过程一直重复，直到抵达图像的底层，然后再向上重复识别。

4 各部分之间的连接

机器识别信息时，像素之间的逻辑关联也包含无数种。

不同的逻辑关联代表着机器对单个像素里不同程度的信息识别。

想象一个互相联系着的世界。

当我们用手机拍摄一张照片时，手机会自动识别照片拍摄的地点，被拍摄的人物，景物，甚至人物身上所穿的衣服，所携带的物品，这些简单信息都能被识别出来。

例如小朋友身穿白色体T-shirt在北京海洋世界游玩，手中拿着一个苹果，站在一群游着的鱼面前。

同一个小朋友在另一张照片里出现时，如果碰巧穿着同样的白色衬衫，机器能识别出衬衫和小朋友曾经在海洋世界里玩的故事。

这里的不同逻辑关联会为机器阅读提供更多的背景，帮助我们更好理解一个图像所要表达的故事，传递的信息。

这需要各种专业的云服务如阿里云，谷歌云的技术支持，让我们生活的世界联系更紧密，交流更及时，信息更通畅。

科技服务的质量也更有保障。

以上是关于也谈谈图像识别的主要内容，如果未能解决你的问题，请参考以下文章

什么是图像识别？图像识别是如何实现的？

Opencv 图像识别Android实战(识别扑克牌 4.图像识别扫盲)