用机器学习的视角诠释军旅人生

Posted 彼岸时评

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用机器学习的视角诠释军旅人生相关的知识,希望对你有一定的参考价值。

作者 / 垃圾桶内你与我


人工智能的核心技术之一,是机器学习。它不仅是一门技术,更是一种思维。今天,我们就用AI的思维来解释军旅人生,读完之后一定能豁然开朗!

1.强化学习

所谓人生选择,其实就是一次马尔科夫决策过程【MDP】。我们所做的每一次决策,都是为了【最大化平均期望奖励】。对于军人来说,当年做出上军校或者国防生的决策,其内心深处也是基于利益的考虑,目的就是通过选择军官职业,最大化一生的平均回报。这里的回报包括工资待遇和社会尊崇。

在军旅生涯当中,很多人的选择,都是基于当前状态对下一状态选取最优动作。然而,如果该动作仅采用贪心策略,并不代表一定能得到最优解。有时候,贪心策略反而会导致人生陷入局部极小值,并在里面一直打转,再也走不出来。原因在于,贪心策略往往缺乏远见,无法很好地评估后续状态对当前状态影响,最终导致人生走出了次优策略甚至效果较差的轨迹。

我们每个人在世界当中都是一个【agent】,父母和家庭给与了我们天然的【环境】,我们每天接受的信息就是我们对环境的【观测】。由于选择了军营,导致我们只能【观测】到军营这个【环境】当中的反馈。【环境】限制了信息,使得身在其中的【agent】无法很好地学习到【全局策略】,反而容易一错再错,甚至把一手好牌打的稀烂。

2.模型预训练

对一个人来说,所谓的模型,就是指从小到大接受的教育以及被灌输的观念和观点。军官大多毕业于军队院校,而军队院校的特点是知识结构陈旧,缺少广博的通识教育,容易被灌输成执行命令的机器。用最近流行的话来说,就是头脑中的模型缺少在大规模数据上的预训练,从而导致【领域适应】能力欠缺,头脑应对多元世界的【鲁棒性】较差,反映在具体生活则表现为思维耿直,粗线条,脾气较差,极其容易被冒犯,情绪容易崩溃

【领域适应】能力偏弱直接导致了退役军人无法很好的适应社会。我们知道,一个模型要想具备很强的【泛化能力】,需要经过大规模长时间的【预训练】,但军官最缺乏的就是这方面能力。军官的头脑从本质上来讲,是一个【规则系统】,只会执行命令,缺乏【泛化能力】,几乎没有能力处理【零次学习】和【少次学习】的场景。缺乏预训练的另一个后果就是【认知偏差】,无法正确应对【通用场景】。

正因为如此,我们会发现,从军时间越长,脱离社会越久的军官,其应对通用世界场景的情商和智力越低,大多人甚至不如【Bert】

军官退出现役之后,需要进行适应性培训,这个过程就相当于在下游任务上进行【fine-tune】,帮助他们重新适应社会,调整观念和心态。


3.学习方法

人生,其实是一个不断【在线学习】,【增量学习】,【主动学习】和【迁移学习】的过程。在面对新场景新问题是,我们需要不断地调整思维模型种的【参数】,提高自身的【鲁棒性】,增强解决新问题,发现新理论的能力。有相当一部分军官,毕业之后就停止了【学习】,拒绝调整头脑中的【参数】,变得十分固执。骄傲和自尊心同时又在不断地强化这种思维,思维又在不断地产生欺骗自己的数据。要想改变这种状况,需要向大脑中输入【负样本】,进行【对抗学习】,提高模型训练的效率,在短时间内改变认知和固化的【偏见】。

故事已经说完,你们都看懂了吗。


_

彼岸杂谈

_
_

你的自由,就是我的星辰大海

_

喜欢就点「在看」吧 !

_



以上是关于用机器学习的视角诠释军旅人生的主要内容,如果未能解决你的问题,请参考以下文章

开源下载 | 经典著作《机器学习:概率视角》.pdf

MIT干货书机器学习算法视角,126页pdf

机器学习40讲-学习笔记

14 深度学习-卷积

14 深度学习-卷积

阴谋还是悲剧?- 基于机器学习假设检验视角,看泰坦尼克号事件