人工智能-机器学习-深度学习-概述

Posted 我擦我擦

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了人工智能-机器学习-深度学习-概述相关的知识,希望对你有一定的参考价值。

文章目录

本文说明

文本大部分内容来自极客时间课程【人工智能基础课】,在学习完之后感觉对整个人工智能领域研究内容有了比较清楚的认知,但这么课程有个缺点就是部分内容叙述过于枯燥,而且重点不清晰,关键是配图太少,所以这里总结如下,然后再加上相应的一些配图,便于大家了解。本文只是介绍一些核心概念,如果想要更深入更完善的学习,还请点击下方进入课程了解,这门课程确实不错

除此之外,本文参考文章有

一:人工智能需要的基础和涉及内容

  • 数学基础:蕴含着处理智能问题的基本思想与方法,也是理解复杂算法的必备要素,没有数学人工智能将无从谈起。主要包括线性代数、概率论、数理统计、最优化方法、信息论、符号逻辑等
  • 机器学习:机器学习的作用是从数据中习得学习算法,进而解决实际问题。主要包括线性回归、决策树、支持向量机、聚类等等
  • 人工神经网络:是机器学习的一个分支,神经网络将认知科学引入机器学习,以模拟生物神经系统对真实世界的交互反应。主要包括多层神经网络、前馈与反向传播、自组织神经网络等
  • 深度学习:简而言之,深度学习就是包含多个中间层的神经网络。主要包括深度前馈网络、深度学习中的正则化、自编码器等
  • 神经网络实例:在深度学习框架下,一些神经网络已用于各种应用场景,并取得了不俗的效果。主要包括卷积神经网络、循环神经网络、深度信念网络等
  • 深度学习之外的人工智能:深度学习即有优点也有缺陷,其他方向的人工智能研究正是有益的补充。主要包括马尔科夫随机场、迁移学习、集群智能
  • 人工智能应用:主要包括计算机视觉、语音识别、对话系统等

二:数学基础

(1)线性代数

线性代数(linear algebra):线性代数为我们提供了一种看待世界的抽象视角,万事万物都可以被抽象成某些特征的组合,并在由预置规则定义的框架之下以静态和动态的方式加以观察。人类能够感知连续变化的大千世界,可计算机只能处理离散取值的二进制信息,因而来自模拟世界的信号必须在定义域和值域上同时进行数字化,才能被计算机存储和处理。从这个角度看,线性代数是用虚拟数字世界表示真实物理世界的工具。线性代数有如下几个核心概念

  • 标量(scalar):由单独的数 a a a构成的元素称之为标量,标量可以是整数、实数或复数等
  • 向量(vector):如果将向量的所有标量都替换为相同规格的向量则得到向量
  • 矩阵(matrix):多个标量 a 1 , a 2 , . . . , a n a_1,a_2,...,a_n a1,a2,...,an按一定顺序组成一个序列称之为矩阵(可以理解为魔方的一个面)
  • 张量(tensor):如果将矩阵中的每个标量元素再替换为向量的话,得到的就是张量,张量就是高阶的矩阵(可以理解为一个魔方)


使用范数(norm)和内积(inner product)来描述特定向量:在实际问题中,向量意义并不仅仅在于数字组合,更有可能是某些对象和某些行为的特征,所以范数和内积可以处理这些特征,进而提取出隐含关系

  • 范数:是对单个向量大小的度量,描述的是向量自身的性质,其作用是将向量映射为一个非负的数值

  • 内积:用于描述两个向量之间的关系,可以表示向量之间的相对位置,也即向量之间的夹角

    • 正交:如果向量内积为0,则称两个向量正交(在二维空间中,表现为相互垂直)。正交意味着两个向量线性无关


线性空间(linear space):如果有一个集合,它的元素都是具有相同维数的向量(可以是有限个或无限个),并且定义了加法和数乘等结构化的运算,这样的集合就被称为线性空间(linear space)。在线性空间中,任意一个向量代表的都是 n n n维空间中的一个点;反之,空间中的任意点也可以唯一用一个向量表示

  • 内积空间(inner product space):定义了内积运算的线性空间

正交基(orthogonal basis):在内积空间中,一组两两正交的向量构成这个空间的正交基;加入正交基中的基向量 l 2 l^2 l2范数都是单位长度1,这组正交基就称之为标准正交基。正交基的作用就是给内积空间定义经纬度,一旦描述内积空间的正交基确定了,向量和点之间的对应关系也就随之确定了


用矩阵描述变化:线性空间的一个重要特征是能够承载变化。当作为参考系的标准正交基确定后,空间中的点就可以用向量表示当这个点从一个位置移动到另一个位置时,描述它的向量也会发生改变。点的变化对应着向量的线性变换(linear transformation),而描述对象变化又或者向量变换的数学语言正是矩阵。在线性空间中,变化的实现方式有两种

  • 直接对点本身进行变化
  • 对参考系变化

因此对于矩阵和向量相乘,就存在着不同的解读方式

  • 向量 x x x经过矩阵 A A A所描述的变换,变为了向量 y y y
  • 一个对象在坐标系下 A A A的度量结果为 x x x,在标准坐标系 I I I下度量结果为 y y y

A X = y AX=y AX=y


特征值(eigenvalue)和特征向量(eigenvector):对于给定矩阵 A A A,假设其特征值为 λ \\lambda λ,特征向量为 x x x,则它们之间的关系如下

A x = λ x Ax=\\lambda x Ax=λx

特征值和特征向量的动态意义在于表示了变化的速度和方向。矩阵有多个特征值和特征向量的含义就是说矩阵会议不同的速度在不同的方向上变化,最终矩阵的变化是这些分变化叠加的效果

(2)概率论

概率论(probability theory):概率论也代表了一种看待世界的方式,它关注的焦点是无处不在的可能性,对随机事件发生的可能性进行规范的数学描述就是概率论公理化的过程

古典概型:说到概率论,我们首先会想到抛硬币实验。将同一枚硬币抛掷10次,其正面朝上的次数可能一次没有,也可能全部都是,换算成频率则分别对应0%和100%。频率会随机波动,但随着重复实验次数不断增加,会趋于某个常数,这种从事件发生的频率认识概率的方法称之为频率学派,它们口中的概率其实就是一个可独立重复的随机试验中单个结果出现频率的极限。在概率的定量计算中,频率所依赖的基础时古典概率模型,在古典概率模型中,试验的结果只包含有限个基本事件,且每个基本事件发生的可能性相同。所以假设所有基本事件的数目为 n n n,待观察的随机事件 A A A中包含的基本事件数目为 k k k,则古典概率模型下事件概率的计算公式为

P ( A ) = k n P(A)=\\frackn P(A)=nk


条件概率(conditional probaility):是根据已有信息对样本空间进行调整后得到的新的概率分布。假定有两个随机事件 A A A B B B,条件概率是指事件 A A A在事件 B B B已经发生的条件下发生的概率,即

  • 联合概率 P ( A B ) P(AB) P(AB)(joint probaility):表示的是 A A A B B B两个事件共同发生的概率,如果两个事件相互独立则有 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)

P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\\fracP(AB)P(B) P(AB)=P(B)P(AB)

全概率公式(law of total probability):基于条件概率可得出全概率公式,全概率公式在于将复杂事件的概率求解转化为在不同情况下发生的简单事件的概率求和,也即

P ( A ) = ∑ i = 1 N P ( A ∣ B i ) P ( B i ) , ∑ i = 1 N P ( B i ) = 1 P(A)=\\sum\\limits_i=1^NP(A|B_i)P(B_i),\\quad \\sum\\limits_i=1^NP(B_i)=1 P(A)=i=1NP(ABi)P(Bi),i=1NP(Bi)=1


贝叶斯公式:对全概率公式稍作整理,就演化除了求解“逆概率”这一问题,逆概率是指在事件结果已经确定的条件下 P ( A ) P(A) P(A),推断出各种假设发生的可能性( P ( B i ∣ A ) P(B_i|A) P(BiA)

P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 N P ( A ∣ B j ) P ( B j ) P(B_i|A)=\\fracP(A|B_i)P(B_i)\\sum\\limits_j=1^NP(A|B_j)P(B_j) P(BiA)=j=1NP(ABj)P(Bj)P(ABi)P(Bi)

贝叶斯定理:贝叶斯公式可进一步抽象为贝叶斯定理。贝叶斯定理根据观测结果寻找合理的假设,或者说根据观测数据寻找最佳的理论解释,其关注焦点在于后验概率

  • P ( H ) P(H) P(H)为先验概率:预先设定的假设成立的概率
  • P ( D ∣ H ) P(D|H) P(DH)为似然概率:在假设成立的前提下观测到结果的概率
  • P ( D ∣ H ) P(D|H) P(DH)为后验概率:在观测到结果的前提下假设成立的概率

P ( H ∣ D ) = P ( D ∣ H ) P ( H ) P ( D ) P(H|D)=\\fracP(D|H)P(H)P(D) P(HD)=P(D)P(DH)P(H)

概率论的贝叶斯学派认为概率描述的是随机事件的可信程度。例如明天下雨的概率时85%指的是明天下雨这个事件的可信度为85%


频率学派和贝叶斯学派区别

  • 频率学派:认为假设是客观存在的且不会改变的,也即存在固定的先验分布,只是作为观察者的我们无从知晓。因而在计算具体事件的概率时要先确定概率分布的类型和参数,以此为基础进行概率演算
  • 贝叶斯学派:认为固定的先验分布是不存在的,参数本身也是随机数。换言之,假设本身取决于观察结果,是不确定并且可以修正的。数据的作用就是对假设做出不断的修正,使观察者对概率的主观认识更加接近客观实际

概率估计方法:机器学习中很多模型都会采用概率论的方法,但由于实际任务中可供使用的训练数据有限,所以需要对概率分布的参数进行估计,这也是机器学习的核心任务。主要有两种估计方法

  • 最大似然估计(在机器学习中更为重要):使训练数据出现的概率最大化,依次确定概率分布中的未知参数,估计出的概率分布也就最符号训练数据的分布。最大似然估计只需要训练数据
  • 最大后验概率法:根据训练数据和已知的其他条件,使未知参数出现的可能性最大化,并选取最可能的未知参数取值作为估计值。最大后验概率法需要先验概率

随机变量:根据取值空间的不同,随机变量可分为

  • 离散型随机变量
  • 连续性随机变量

随机变量:根据取值空间的不同,随机变量可分为

  • 离散型随机变量
  • 连续性随机变量

概率质量函数和概率密度函数:根据取值空间的不同,随机变量可分为

  • 概率质量函数:离散型随机变量每个可能的取值都具有大于0的概率,取值和概率之间对应的关系就是离散型随机变量的分布律,也即概率质量函数
  • 概率密度函数:概率质量函数在连续性随机变量上的对应就是概率密度函数(概率密度函数体现的并非连续型随机变量的真实概率,而是不同取值可能性
    之间的相对关系)

重要的离散分布