链接:https://www.zhihu.com/question/54082000/answer/145495695
来源:知乎
在英语语境里,likelihood 和 probability 的日常使用是可以互换的,都表示对机会 (chance) 的同义替代。但在数学中,probability 这一指代是有严格的定义的,即符合柯尔莫果洛夫公理 (Kolmogorov axioms) 的一种数学对象(换句话说,不是所有的可以用0到1之间的数所表示的对象都能称为概率),而 likelihood (function) 这一概念是由Fisher提出,他采用这个词,也是为了凸显他所要表述的数学对象既和 probability 有千丝万缕的联系,但又不完全一样的这一感觉。中文把它们一个翻译为概率一个翻译为似然也是独具匠心。
先看似然函数的定义,它是给定联合样本值下关于(未知)参数 的函数:
这里的小是指联合样本随机变量取到的值,即;
这里的是指未知参数,它属于参数空间;
这里的是一个密度函数,特别地,它表示(给定)下关于联合样本值的联合密度函数。
所以从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于的函数,后者是关于的函数。所以这里的等号 理解为函数值形式的相等,而不是两个函数本身是同一函数(根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。
说完两者的区别,再说两者的联系。
(1)如果是离散的随机向量,那么其概率密度函数可改写为,即代表了在参数下随机向量取到值的可能性;并且,如果我们发现
那么似然函数就反应出这样一个朴素推测:在参数下随机向量取到值的可能性大于 在参数下随机向量取到值的可能性。换句话说,我们更有理由相信(相对于来说)
更有可能是真实值。这里的可能性由概率来刻画。
(2)如果是连续的随机向量,那么其密度函数本身(如果在连续的话)在处的概率为0,为了方便考虑一维情况:给定一个充分小,那么随机变量取值在区间内的概率即为
并且两个未知参数的情况下做比就能约掉,所以和离散情况下的理解一致,只是此时似然所表达的那种可能性和概率无关。
综上,概率(密度)表达给定下样本随机向量的可能性,而似然表达了给定样本下参数(相对于另外的参数)为真实值的可能性。我们总是对随机变量的取值谈概率,而在非贝叶斯统计的角度下,参数是一个实数而非随机变量,所以我们一般不谈一个参数的概率。
最后我们再回到这个表达。首先我们严格记号,竖线表示条件概率或者条件分布,分号表示把参数隔开。所以这个式子的严格书写方式是因为在右端只当作参数理解。