水很深的深度学习-Task01

Posted GoAl的博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了水很深的深度学习-Task01相关的知识,希望对你有一定的参考价值。

目录

         1.人工智能、机器学习与深度学习

1.1 人工智能、机器学习与深度学习

1.2 起源与发展

1.3 深度学习定义与分类

1.4 主要应用

2 数学基础

2.1 矩阵论

2.2 概率统计

2.3 信息论

2.4 最优化估计

3 总结


1 人工智能与机器学习

  • 人工智能分类:强人工智能、弱人工智能、超级人工智能
  • 机器学习分类:有监督学习、无监督学习、强化学习

1.2 起源与发展

  • 第1阶段:提出MP神经元模型、感知器、ADLINE神经网络,并指出感知器只能解决简单的线性分类任务,无法解决XOR简单分类问题
  • 第2阶段:提出Hopfiled神经网络、误差反向传播算法、CNN
  • 第3阶段:提出深度学习概念,在语音识别、图像识别的应用

1.3 深度学习定义与分类

  • 定义:采用多层网络结构对未知数据进行分类或回归
  • 分类:
    1. 有监督学习:深度前馈网络、卷积神经网络、循环神经网络等
    2. 无监督学习:深度信念网、深度玻尔兹曼机、深度自编码器等

1.4 主要应用

  • 图像处理领域:图像分类、物体检测、图像分割、图像回归
  • 语音识别领域:语音识别、声纹识别、语音合成
  • 自然语音处理领域:语言模型、情感分析、神经机器翻译、神经自动摘要、机器阅读理解、自然语言推理
  • 综合应用:图像描述、可视回答、图像生成、视频生成

2 数学基础

2.1 矩阵论

  • 张量:标量是0阶张量,矢量是1阶张量,矩阵是2阶张量,三维及以上数组称为张量
  • 矩阵的秩(Rank):矩阵向量中的极大线性无关组的数目
  • 矩阵的逆:
    1. 奇异矩阵:rank(A_n×n)<nrank(An×n​)<n
    2. 非奇异矩阵:rank(A_n×n)=nrank(An×n​)=n
  • 广义逆矩阵:如果存在矩阵BB使得ABA=AABA=A,则称BB为AA的广义逆矩阵
  • 矩阵分解:
    1. 特征分解:A = U\\Sigma U^TA=UΣUT
    2. 奇异值分解:A = U \\Sigma V^TA=UΣVT、U^T U = V^T V = IUTU=VTV=I

2.2 概率统计

  • 随机变量:

    1. 分类:离散随机变量、连续随机变量
    2. 概念:用概率分布来指定它的每个状态的可能性
  • 常见的概率分布:

    1. 伯努利分布:单个二值型离散随机变量的分布,概率分布函数:P(X=1)=p,P(X=0)=1-pP(X=1)=p,P(X=0)=1−p
    2. 二项分布:重复nn次伯努利试验,概率分布函数:P(X = k) = C_n^k p^k (1-p)^n-kP(X=k)=Cnk​pk(1−p)n−k
    3. 均匀分布:概率密度函数:\\displaystyle p(x) = \\frac1b-a, \\quad a < x <bp(x)=b−a1​,a<x<b
    4. 高斯分布:又称正态分布,概率密度函数:\\displaystyle p(x) = \\frac1\\sqrt2 \\pi\\sigmae^-\\frac(x-\\mu)^22 \\sigma^2p(x)=2π​σ1​e−2σ2(x−μ)2​
    5. 指数分布:独立随机事件发生的时间间隔,概率密度函数:p(x) = \\lambda e^-\\lambda x (x \\geqslant 0)p(x)=λe−λx(x⩾0)
  • 多变量概率分布:

    1. 条件概率:P(X | Y)P(X∣Y)
    2. 联合概率:P(X, Y)P(X,Y)
    3. 先验概率:在事件发生前已知的概率
    4. 后验概率:基于新的信息,修正后来的先验概率,获得更接近实际情况的概率估计
    5. 全概率公式:\\displaystyle P(B) = \\sum_i = 1^nP(A_i)P(B|A_i)P(B)=i=1∑n​P(Ai​)P(B∣Ai​)
    6. 贝叶斯公式:P(A_i | B) = \\frac P(B | A_i) P(A_i)P(B) = \\fracP(B | A_i) P(A_i) \\displaystyle \\sum_j=1^n P(A_j) P(B | A_j)P(Ai​∣B)=P(B)P(B∣Ai​)P(Ai​)​=j=1∑n​P(Aj​)P(B∣Aj​)P(B∣Ai​)P(Ai​)​
  • 常用统计量:

    1. 方差:随机变量与数学期望之间的偏离程度 \\textVar(X) = E\\left\\ [x-E(x)]^2 \\right \\ = E( x^2 ) -[E(x)]^2Var(X)=E[x−E(x)]2=E(x2)−[E(x)]2
    2. 协方差:两个随机变量XX和YY的总体误差 \\textCov(X,Y)=E\\left\\ [x-E(x)][y-E(y)] \\right\\=E \\left( xy \\right) - E(x)E(y)Cov(X,Y)=E[x−E(x)][y−E(y)]=E(xy)−E(x)E(y)

2.3 信息论

  • 熵:样本集纯度指标,或样本集报班的平均信息量

    H(X) = - \\sum_i = 1^n P(x_i) \\log_2 P(x_i)H(X)=−i=1∑n​P(xi​)log2​P(xi​)
  • 联合熵:度量二维随机变量XYXY的不确定性

    H(X, Y) = -\\sum_i = 1^n \\sum_j = 1^n P(x_i, y_j) \\log_2 P(x_i, y_j)H(X,Y)=−i=1∑n​j=1∑n​P(xi​,yj​)log2​P(xi​,yj​)
  • 条件熵:

    \\beginaligned H(Y|X) &= \\sum_i = 1^n P(x_i) H(Y|X = x_i) \\\\ &= -\\sum_i = 1^n P(x_i) \\sum_j = 1^n P(y_j | x_i) \\log_2 P(y_j | x_i) \\\\ &= -\\sum_i = 1^n \\sum_j = 1^n P(x_i, y_j) \\log_2 P(y_j | x_i) \\endalignedH(Y∣X)​=i=1∑n​P(xi​)H(Y∣X=xi​)=−i=1∑n​P(xi​)j=1∑n​P(yj​∣xi​)log2​P(yj​∣xi​)=−i=1∑n​j=1∑n​P(xi​,yj​)log2​P(yj​∣xi​)​
  • 互信息:

    I(X;Y) = H(X)+H(Y)-H(X,Y)I(X;Y)=H(X)+H(Y)−H(X,Y)
  • 相对熵:又称KL散度,描述两个概率分布PP和QQ差异,用概率分布QQ拟合真实分布PP时,产生的信息表达损耗

    1. 离散形式:\\displaystyle D(P||Q) = \\sum P(x)\\log \\fracP(x)Q(x)D(P∣∣Q)=∑P(x)logQ(x)P(x)​
    2. 连续形式:\\displaystyle D(P||Q) = \\int P(x)\\log \\fracP(x)Q(x)D(P∣∣Q)=∫P(x)logQ(x)P(x)​
  • 交叉熵:目标与预测值之间的差距

    \\beginaligned D(P||Q) &= \\sum P(x)\\log \\fracP(x)Q(x) \\\\ &= \\sum P(x)\\log P(x) - \\sum P(x)\\log Q(x) \\\\ &= -H(P(x)) -\\sum P(x)\\log Q(x) \\endalignedD(P∣∣Q)​=∑P(x)logQ(x)P(x)​=∑P(x)logP(x)−∑P(x)logQ(x)=−H(P(x))−∑P(x)logQ(x)​

2.4 最优化估计

  • 最小二乘估计:采用最小化误差的平方和,用于回归问题

数学基础



线性代数

  • 标量(scalar):一个标量就是一个单独的数。
  • 向量(vector):一个向量是一列数。
  • 矩阵(matrix):矩阵是一个二维数组,其中的每一个元素被两个索引所确定。
  • 张量(tensor):一个数组中的元素分布在若干维坐标的规则网络中,称之为张量。
  • 转置(transpose):矩阵的转置是以主对角线为轴的镜像。
  • 单位矩阵(identity matrix):所有沿主对角线的元素都是1,所有其他位置的元素都是0.
  • 对角矩阵(diagonal matrix):只在主对角线上含有非零元素,其他位置都是0。
  • 正交矩阵(orthogonal matrix):行向量和列向量分别标准正交的方阵。
  • 正定(positive definite):矩阵所有特征值都是正数。
  • 半正定(positive semidefinite):矩阵所有特征值都是非负数。
  • 负定(negative definite):矩阵所有特征值都是负数。
  • 半负定(negative semidefinite):矩阵所有特征值都是非正数。
  • 矩阵的秩(rank):矩阵列向量中的极大线性无关组的数目,记作矩阵的列秩,同样可以定义行秩。行秩=列秩=矩阵的秩,通常记作rank(A)。


以上是关于水很深的深度学习-Task01的主要内容,如果未能解决你的问题,请参考以下文章

水很深的深度学习-Task02机器学习基础

水很深的深度学习-Task05循环神经网络RNN

水很深的深度学习-Task04卷积神经网络CNN

水很深的深度学习-卷积神经网络篇

Why deep learning?

基于Pytorch的可视化工具