读《爱犯错的智能体》
Posted engineblogs
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了读《爱犯错的智能体》相关的知识,希望对你有一定的参考价值。
张军平 著
2019年出版
博主很喜欢这本书,作者知识广博,信息密度和趣味性恰到好处。
摘要:本书科普性地介绍了人工智能前沿进展,着重从人类错觉的角度,浅显易懂地剖析了智能体在视、听、语言等方面存在的各种错觉和犯错,以及AI在发展中的一些新颖的方向。
- 贝叶斯先验的有限性,与人的全部终身经历的冲突。复旦李斌提出“可学习先验”。张钹“人能从极不相同的粒度上分析同一问题”。
- 多尺度计算,按传统方法不是极大数溢出,就是极小数被忽略。不可计算定理:“通用建模和最优求解不可同时计算”, 这些都是现有AI理论无法超越人类的例子
视觉错觉
人类很容易忽略目标,因为目标成像于视网膜焦点“中央凹”,目标周围由视杆细胞感知,其主要负责运动,对具体细节不敏感。任何动物是会偷懒的智能体,倾向于用建议判断。
阴影的作用,产生立体感(未来研究方向:可利用光线变化主动重建阴影,来反侦查)。
- 流形理论用于AI
从直线测距的欧式空间和不能直线测距的非欧空间找到合理衔接。假定非欧空间有好几个局部欧式空间拼接而成(manifold,流形),连接处的光滑、可微、抽象。这个idea启发了爱因斯坦。
感知的流形 sebastian seung 和Daniel Lee提出人记忆是按视觉侧向角度的曲线来还原和生成不同图像。几个维度的变化在高维空间可以张成无数曲面的合集。
人眼有上亿的神经元,人脸变化的维度张成的空间要小得多,称为嵌套在高维空间(视神经元空间)低维流形(离散吸引子,连续吸引子)。想用欧式距离来解决流形结构,采用邻域概念,即在局部情况下,流形等同与欧氏空间。
Tnenbaum采用测地线距离和局部等规(isomap)算法,将离散的点根据邻域概念,将相邻的边连起来,构成连通图,测地线距离就可以用连通边的最短距离来近似,然后为所有点建立相似形或距离矩阵,就能找到主要方向。
Roweis和LAul假定邻域内的数据点会相互保持一种几何关系,在平坦空间会与观测的空间保持一致,得到局部线性嵌入lle算法。简约的二维平面或数据的分布具有物理意义
- 颜色与光强
颜色自然界中的电磁波分布广泛,但由于大气的保护作用。臭氧层吸收了紫外线二氧化碳吸收了大量的远红外线水蒸气,吸收了进红外和微波,因此能够进入大气层的太阳辐射一可见光谱为主。
人对光强度的分辨能力,一般在20个灰度级左右,但对颜色的分辨力却能升高好几个数量级,这对人类提高和加速目标识别提供了有利条件。
- 特征提取与稀疏解
海森堡提的测不准原则里面粒子的位置和动量不可同时被确定。位置与空间相关,动量与时间相关,在这两个不同域里一个域的参数,另一个域参数的不确定性程度就越大
傅立叶变换中时域和频域也有这样的对应关系,小波变换信号间隔越宽,对应的频率信号越窄。
将原空间的数据变化为能让特征数量变得极其稀疏的空间,能够提高人工智能很关心的可解释性。这就是压缩感知的理论,将奇函数变成一个如高斯分布形成的随机噪声矩阵,在这个矩阵里每个点的分布是随机的无规律的,因此可以被认为是稠密的,这样可以获得不错的稀疏解
情感、认知错觉
人在做复杂任务判断时不会缜密的计算每个事件的概率,而会借助少量的启发式技巧来做简单快速的判断。大部分时候是有效的,偶尔会导致严重和系统性的错误。
人对结果的先验概率不敏感,小样本情况下产生的波动要明显大于大样本,但人不会感觉到,这些人对样本规模存在不敏感性。
人工智能的缺陷:一缺乏人类学习的可塑性,只能沿着固化的模型结构来完成指定任务,二缺乏对不同结构不同模态的网络之间的联系的学习;三为考虑认知错觉或直接统计学的可借鉴性。
各类学科与AI
- 稀疏学习
在稀疏学习理论中,科学家们希望通过对数据特征的稀疏化来获得解释性,构造了具有随机性、稠密的变换基函数,如高斯函数,但是能处理的变量规模相对有限,智能启示不明显。
- 模糊理论
模糊理论的创始人加州大学伯克利分校的拉特非查得提出了解释复杂系统的不相容原理。他认为,随着系统复杂性的增加,我们对其精确的描述能力会降低,一旦超过某个阈值,精确和有意义,二者就会相互排斥。
- 深度学习的三板斧
- 正则化:认为问题求解不存在唯一性,是一对多的条件,是病态问题,需要引入约束性来解决。但是有可能求解的空间就不够。
- 加圈:在相互关系中,构造明确指向的有向图形,或者是无向图,也可以混搭,所以增加更细粒度关系的圈以及边。但是这一方法在变量复杂时,容易出现关系混乱,计算量过大的问题,在现阶段也很难找出可以自我生长的模型。
- 加层:深度学习的层可以加深,加宽,可以跳着加,也可以加注意力。从工程技巧来看,深度学习逐层变特征学习的策略获得了巨大的寻优空间,加上大数据的支持,使得其预测能力非常强,其他的方法只能在小样本环境中找点自留地。但是深度学习主要的长处还是在预测,并没有考虑模型的可塑性,可发展性,也没有提到本文中所需要的智能的平衡。
- 脑科学
我们对神经元集群每个单元的活动仍然皆知甚少,更不用说把单元的信息结合起来,理解大脑对知识的加工编码过程。另外如何从简单的神经活动,升化为思考,也缺乏有效的研究方案,从深度学习的角度看,由于脑的活动是个体的,脑科学的许多实验可重复性偏低,难以形成有统计意义的结论。
- 统计学习
贝叶斯学派认为,任何一个未知量都可以通过重复实验的方式来获得一个先验的分布,并以之来影响总体分布和推断。为了追求可分析,统计学解偏好采用线性模型求解。但是现实世界却存在大量的非线性问题。还需要更多有效的非线性的理论方法和工具。
- 数学
数学之美在于简洁,然而这种简洁和完备性的或者是有代价的,通过大量放缩,牺牲小项来获得,也许就是这些放缩的过程被牺牲掉的小项是有意义的。因为处理实际问题中,大多数情况是有噪声的,不确定的。智能是否需要严谨的数学?也许不需要。大部分的动物没有像人一样学过数学,仍然能很好地适应环境。这说明仿生智能从数学上建模,并不见得是等同于真正智能的感知和预测方式。
- 物理学
量子计算优势,主要在于加速计算,但是在速度快的同时,为每个量子位的状态引入了不确定性。这样就牺牲了原本机器学习容易获得的精确性能。比如聚类算法,另外智能的本质问题应该不是通过提高计算效率就能解决。
- 遗传学
基因的结构很像是超乎寻常的程序。固定的基因序列包含了可以表达功能的编码区和其他如调控的非编码区。而且有一种按时表达或调控的能力。这种编程技巧目前还无法在人类已有的程序中找到对应的部分。
对非编码区按时调控的深入分析,也许对于理解智能体的结构发育有着重要意义。
- 认知心理学
认知心理学总结了一些规律,比如涌现,聚类,旋转不变性,学习迁移,创造性思维等,但忽略了对生理基础的研究不太容易量化,程序化。应该是高层和抽象的智能,远离了智能金字塔的基础。
- 社会学
社会学至今已经形成了从微观的社会行动和人际互动到宏观的社会系统和结构的广泛研究。但是在形式化这些成果方面存在困难,使得仿真社会学中的群体行为各要素存在了难度。
打破各学科之间的壁垒,交叉合力,优势互补,可能才能寻找到智能的答案。
深度学习vs 传统机器学习/统计学习
深度学习是在找个体最优解(个人长寿)。而之前的机器学习更像是在找共识的养生之道
- 传统机器学习
在深度学习之前,选择特征和选择预测模型是两套方法。从统计意义来讲,一个好的模型需要在偏差和方差之间找到平衡。在传统的机器学习中,这种平衡往往是通过控制模型的复杂性来获得的。比如贝叶斯信息准则信息,编码的最小描述长度等,或者从数据几何结构出发限制流形约束,或者从稀疏性角度出发,惩罚模型系数总量的L1范数,最大边缘等约束。
不管是哪种复杂性都希望在统计一下从某个侧面去毕竟真实的世界的局部或甚至整体获得其在假设下的理论最优解应是归纳求解解通常是稳定的。
以预测任务为例,如果说希望预测到的未知目标越精确越好,但放在统计学习一下就会碰到模型复杂性的问题。这一问题的来源在于,设计的那个模型离真实的模型之间总会有偏差的存在。同时模型的参数会导致其模型自身在寻优时存在波动,会产生方差,导致我们要处理的问题缺乏唯一解,是病态问题。
- 深度学习
深度学习的思路不同,其可调整的参数数量在百万级,甚至亿级,好处是学习来的表示能张成一个远大于原有空间的空间,学术上称之为过完备空间。一般来说,在这个过完备空间上,寻找不符合统计规律,却具有优良品质的个例的机会就显著增加了。在计算能力增加,数据获取成本下降,并有一些工程技巧解决了计算的问题(反向传播过程中梯度消失,梯度爆炸,并行计算能力等),深度学习取得成功。
在深度学习里面,特征选择和预测放在一起完成。通过开源代码等,大家都可以做差不多,工作同质化严重。
一个黑箱形式的深度学习模型,经过充分的训练,可以达到专业医生的水平,但无法解释其如何形成判断。如果希望取得优异的预测性能,可能就得牺牲可解释性,因为前者是通过个例体现,而后者需要从统计平均出发。
以上是关于读《爱犯错的智能体》的主要内容,如果未能解决你的问题,请参考以下文章