[人工智能-深度学习-16]:神经网络基础 - 模型训练超参数 - 学习率(learning rate)

Posted 文火冰糖的硅基工坊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[人工智能-深度学习-16]:神经网络基础 - 模型训练超参数 - 学习率(learning rate)相关的知识,希望对你有一定的参考价值。

作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客

本文网址:https://blog.csdn.net/HiWangWenBing/article/details/120590079


目录

第1章 学习率在机器学习模型中的位置

第2章 什么是超参数

2.1 超参数的定义

2.2 超参数的特性:

2.3 常见的超参数

第3章  什么是学习率

3.1 学习率的作用

3.2 什么是学习率

第4章 学习率对模型训练的影响

4.1 学习率的作用

4.2 学习率:分类方法1:静态与动态

4.3 学习率分类方法2:动态变化的方式


第1章 学习率在机器学习模型中的位置

学习率在上述模型中,属于3-3模型训练的一部分,是模型训练中的超参数。

第2章 什么是超参数

2.1 超参数的定义

超参数是相对于神经网络模型中网络模型参数W, B而言的。

超参数本身不是神经网络的构成部分,但他们是训练神经网络时,由程序员可控的、可调整的模型训练的参数。

在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。如学习率就是一个超参数。

2.2 超参数的特性:

  • 定义关于模型的更高层次的概念,如复杂性或学习能力。

  • 不能直接从标准模型培训过程中的数据中学习,需要预先定义。

  • 可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定

2.3 常见的超参数

  • 树的数量或树的深度

  • 矩阵分解中潜在因素的数量

  • 学习率(多种模式)

  • 深层神经网络隐藏层数

  • k均值聚类中的簇数

第3章  什么是学习率

3.1 学习率的作用

梯度下降法的迭代步长,主要取决于函数在某一点处的导数。

(1)函数在任意一点的导数(梯度),是由函数本身确定的,无法修改,为了能够调整迭代的步长,这就需要引入了新的参数控制迭代的步长。

(2)另一方面,函数的导数,有可能非常大,如果直接使用原始的梯度(导数)作为迭代的步长,这个步长可能非常大,到大是迭代无法收敛,这就需要引入了新的参数控制迭代的步长。

基于上述的两个原因,引入了学习率。

3.2 什么是学习率

 运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率α。

第4章 学习率对模型训练的影响

4.1 学习率的作用

学习率的作用是控制迭代的步长。

4.2 学习率:分类方法1:静态与动态

(1)静态学习率:学习率有程序员设定初始值,在训练的过程中不需要修改。

(2)动态学习率:在训练模型的过程中,根据上下文动态修改学习率

(3)自适应学习率:在训练模型的过程中,根据W, B的参数动态调整学习率

4.3 学习率分类方法2:动态变化的方式


作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客

本文网址:https://blog.csdn.net/HiWangWenBing/article/details/120590079

以上是关于[人工智能-深度学习-16]:神经网络基础 - 模型训练超参数 - 学习率(learning rate)的主要内容,如果未能解决你的问题,请参考以下文章

[人工智能-深度学习-34]:卷积神经网络CNN - 常见分类网络- VGG16/VGG19网络结构分析与详解

Tensorflow+Keras 深度学习人工智能实践应用 Chapter Two 深度学习原理

Keras深度学习实战(10)——迁移学习

人工智能机器学习深度学习神经网络,都有什么区别,卷积神经网络和全连接神经网络的区别

人工智能机器学习深度学习神经网络,都有什么区别,卷积神经网络和全连接神经网络的区别

人工智能深度学习入门练习之(30)深度学习 – 人工神经网络