吴恩达深度学习专项课程3学习笔记/week1/Setting up ML Application

Posted surimj

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了吴恩达深度学习专项课程3学习笔记/week1/Setting up ML Application相关的知识,希望对你有一定的参考价值。

应用ML是一个高度迭代的过程

Idea->Code->Experment->...

去不断地调整超参数。

Train/Dev/Test sets

通常将数据集划分为Train/Dev/Test集。

  • Training set: 用于模型的训练

  • Hold-out cross validation set/Developmet set: 用于测试,调整模型超参数

  • Test set: 用于最终评估

以前的ML问题:数据规模在w级,通常70/30划分Train/Test集或者60/20/20比例划分。

现在的大数据时代:数据规模在百w级,趋势是Dev/Test集的比例减小,因为Dev集只需要大到足够判断不同的模型的优劣就可以了,Test集类似。如有100w的数据集,98/1/1的比例是一种较合理的划分。

经验:

  1. 确保Dev/Test集来自同一个分布,这样有助于算法进步的效率。
  2. 训练集则可以采取网页爬取等方式以获得更大量的数据。
  3. 没有测试集也是可以的,只用Dev集来调整。

Bias/Variance

可以通过Train set error和Dev set error来判断模型是否存在high bias/variance的问题。

比如,假设假设bayes error约为0%,即人类可以几乎完全准确识别,并且Train和Dev集来自同一个分布。

Train set error Dev set error 结果
1% 11% high variance
15% 16 high bias
15% 30% high variance & high bias
0.5% 1% low variance & low bias

Some Basic recipe(基本准则)

STEP1 High bias? --> 更大的网络;训练更长时间;(其他NN架构)

STEP2 High variance? --> 更多的数据;正则化;(其他NN架构)

在深度学习时代,不需要再过多考虑bias 和 variance的权衡,如果合理的正则化,采用更大的网络在降低bias的同时几乎不会增加variance,如果有足够大的网络,获得更多的数据在降低variance时几乎不会增加Bias,这也是深度学习在监督学习领域十分有效地原因之一。

以上是关于吴恩达深度学习专项课程3学习笔记/week1/Setting up ML Application的主要内容,如果未能解决你的问题,请参考以下文章

吴恩达深度学习专项课程2学习笔记/week2/Optimization Algorithms

吴恩达-医学图像人工智能专项课程-第一课第一周1-3节总结

吴恩达 DeepLearning.ai课程笔记(1-3)神经网络和深度学习 --- 浅层神经网络

吴恩达深度学习课程笔记

吴恩达深度学习课程笔记

吴恩达-医学图像人工智能专项课程-第一课第一周1-3节