7. 直接策略搜索及学习过程

Posted 2023-01-06 starrow

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了7. 直接策略搜索及学习过程相关的知识，希望对你有一定的参考价值。

1.3.3 直接策略搜索

强化学习的另一类解法建立策略的参数模型，将最优化问题的目标函数变为以参数θ为自变量的复杂函数ρ(θ)，然后发展出各种方法估算这些函数。例如，DeepMind公司开发的强化学习模型将Atari公司推出的一系列游戏的画面像素作为输入，用深度神经网络学习玩游戏的策略，在很多游戏中水平都超过了人类玩家。

1.4 学习过程

前面看到的监督学习的函数、非监督学习的模式和强化学习的映射规则可以统一表述为机器学习的模型。根据具体的学习任务构建实用的模型，需要考虑许多问题。

第1个问题是准备数据。数据代表模型从中学习的经验，是机器学习的前提。尤其是监督学习，必须有足够代表输入与输出之间函数关系的训练数据，因此涉及采集和标记数据的大量工作。在将采集到的数据提供给模型之前，往往还需要针对缺失值和输入变量取值范围差异等问题进行处理。

第2个问题是选择模型。机器学习的模型很丰富，如线性回归、K近邻、决策树、支持向量机、人工神经网络，它们有各自的特点和适用的场景。我们需要根据具体的任务和模型的表现来选择合适的模型。

选择模型涉及第3个问题——评价指标。虽然监督学习有训练数据的实际输出值作标准，但是度量预测误差的期望值仍然并非易事。第7章将专门介绍评价和选择监督学习模型的各种标准和方法。由于没有输出值作客观标准，非监督学习模型的评价只能依赖于符合直觉的主观标准，比如聚类分析先定义实例的相似度或相异度，然后将评价指标定为聚类内实例的相似度最大化或相异度最小化。强化学习的评价指标——累计折扣奖励则涉及如何评估环境给予的奖励及设定折扣系数。

最后一个问题是对机器学习水平的要求。这在很大程度上决定了能否将机器学习应用于某个领域。例如，对机器识别图片和下棋水平的要求就没有自动驾驶和疾病诊断高，因此前者的应用就更容易普及。

1.5 本章小结

本章是对机器学习的总体介绍。在说明机器学习的含义和要件后，分别用例子介绍了监督学习的两项任务——分类和回归，分析了归纳偏好的意义和作用。接着列举了非监督学习两个主要领域——聚类分析和关联规则分析。在强化学习部分，首先解释了强化学习研究的问题，然后简单扼要地介绍了其理论基础和解法。最后讨论了构建机器学习模型所共同面对的一些问题。

以上是关于7. 直接策略搜索及学习过程的主要内容，如果未能解决你的问题，请参考以下文章