也谈谈图像识别
Posted 小艺术课堂
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了也谈谈图像识别相关的知识,希望对你有一定的参考价值。
图像识别里的分层记忆,情绪,逻辑,以及各部分之间的连接
等我能退休的时候,我会去MIT, Standford,剑桥牛津做游学研究,教书育人,做点简单有意义的事
你们跟我一起去,组成团
希望这一天能早点到来
给我些时间,我会成全你们每一个
1 分层记忆
有过ps经验的人都知道,每一张图片有很多的分层(layer),也就是说,图像里的信息是分层存储的。
目前的机器识别能做到的是“解读”图片里的分散的信息,把这些能赋予属性的信息通过大量的图片识别,“告诉”机器是什么。通过这些量级的“训练”,机器能够识别画面里的简单信息,例如一只猫坐在床上,旁边有个小女孩在电脑上工作。
不远的将来,猫的身上有什么样的花纹,身形大小,眼睛的形状,以及什么样的表情,这些都会被机器识别。
挑战也真是很多,例如能否判断图片信息的层次,实现逐层机器阅读。
这种深层的机器识别在医学场景里的使用会是非常有帮助的,例如分析某个器官组织的切片。
这不再是单纯识别一张图片里的各种包含可识别特征的信息,而是回到图像生成的顺序跟过程,实现机器图像“阅读”。
量化的过程是图像识别技术的关键,海量数据存储,海量数据阅读。
2 情绪
图像里的信息也是带有“情感”的,这跟我们在某种状态里理解的情感不同,是被拟人化了的。
举个例子,画家在画布上创作时,堆积色彩颜料的过程,在机器识别的层面上,会是各种色彩名称的罗列,如果没有艺术家为这些色彩定义冷暖调,饱和度,色阶的话。当我们知道了红色是暖色,蓝色是冷色时,进而知道红色蓝色的内阶也会有偏冷偏暖的色调时,这时色彩被赋予了“温度”。
温度的高低跟情绪就有了关联。想想看,一张北欧格调的家居照片会让人很安静,当然,简洁明快的包豪斯风格也会让人心情跳跃。
机器识别的第二个阶段(stage),是色彩的识别。
也就是说,机器在阅读海量图像信息,被“训练”识别各种事物的属性时,也同时在做着深层的色彩识别,每个像素这时就变成了只有盲人才能阅读的“点”状文字。当然,每个像素块包含的信息量远远超过一个“点”所含有的。
这个阅读过程在算法层面上,更接近信息被”打包“(packaging)。想象一下,如果每秒钟能进行百万级别的信息打包,或许相当于我们阅读一个汉字的偏旁,或者英文单词里的一个字母,或者一个像素。
打包的量级叠加,完成一个个图像信息的识别过程。
这像极了三岁小朋友大量阅读图片,无条件吸收知识信息的过程,可能不会完全理解,但是这个大量存储记忆的过程,建造着理解能力的基础。
在看多了苹果的图片之后,小朋友会条件反射说出苹果的名字,当这样的能力在一个个发散的节点上连成一个平面时,就慢慢形成了真正的理解,如同拼图的一小块,实现这个过程离不开一个重要的能力,逻辑。
3 逻辑
有效的机器阅读依赖有效的阅读方式和路径。
很多时候会很好奇,小小的蚂蚁能够识别“眼前”的是食物,还是不明身份的障碍物,这是怎么做到的。
蚂蚁有灵敏的嗅觉器官和传感器来帮助判断身边的所有事物,这像不像逻辑判断。
一系列是或否的自问自答,完成了对前方事物的识别,即使没有我们的理解能力所获得的事物的信息,大概很多信息是不必要的,蚂蚁也能做到这样的“理解“。
这样的理解是有效而专注的。实际上做的是对信息的筛选,为完成一个特定的目标,选择最有效的信息。
机器学习借鉴的也是这样一个有效的信息选择过程,把最符合条件的信息留下来,先不去理会暂时不能派上用场的信息。
当然,暂时无效的信息也能被打包,等待实现对等的目标。
问题是,有效的机器阅读方式和路径,是立体的(dimensional),还是逐层的(layer by layer)。
立体阅读,在技术日益成熟时,能在单个像素里实现最完全,完整的机器识别,想象一下皮肤里包含的层次。单个像素机器阅读时,先完成表皮层识别,接着进入真皮层识别,然后继续深入到脂肪层,这样一直深入到像素里的图像信息底层。
这时的单个像素变成了一个立体的拼图块,包含大量有效的信息,每一边都有着开放的逻辑关联,等待着来自相邻像素的有效信息的对接。这个过程是time-consuming的。
逐层阅读,是把一个图像层面(layer)的所有像素里包含的有效信息识别出来,例如回到一只猫坐在床上,如果机器只把这个图像第一层的信息读出来的话,大概会是单色调(monochrome)的,读到全部信息的轮廓,这对有效信息的筛选会很有帮助。
这样在进入整个图像第二层面时,会把机器阅读的目标范围缩小,当然也会有特别的情况是,在第一层面无法阅读的信息到了这一层反倒能识别出来。
这样的过程一直重复,直到抵达图像的底层,然后再向上重复识别。
4 各部分之间的连接
机器识别信息时,像素之间的逻辑关联也包含无数种。
不同的逻辑关联代表着机器对单个像素里不同程度的信息识别。
想象一个互相联系着的世界。
当我们用手机拍摄一张照片时,手机会自动识别照片拍摄的地点,被拍摄的人物,景物,甚至人物身上所穿的衣服,所携带的物品,这些简单信息都能被识别出来。
例如小朋友身穿白色体T-shirt在北京海洋世界游玩,手中拿着一个苹果,站在一群游着的鱼面前。
同一个小朋友在另一张照片里出现时,如果碰巧穿着同样的白色衬衫,机器能识别出衬衫和小朋友曾经在海洋世界里玩的故事。
这里的不同逻辑关联会为机器阅读提供更多的背景,帮助我们更好理解一个图像所要表达的故事,传递的信息。
这需要各种专业的云服务如阿里云,谷歌云的技术支持,让我们生活的世界联系更紧密,交流更及时,信息更通畅。
科技服务的质量也更有保障。
以上是关于也谈谈图像识别的主要内容,如果未能解决你的问题,请参考以下文章