机器学习数学基础: 数据生成器与学习器的关系

Posted 2021-08-20 minfanphd

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习数学基础: 数据生成器与学习器的关系相关的知识，希望对你有一定的参考价值。

我在接触机器学习的过程中, 被一些学习器所洗脑, 如 $k$ NN, 决策树, Naive Bayes (NB), Supoort vector machines (SVM), Back-propagation artificial neural networks (BP-ANN), Matrix factorization (MF). 学习器的评价指标往往是分类精度 (accuracy)、回归误差 (mean absolute error, MAE; root mean squared error, RMSE) 等等. 这导致了我对数据内部规律的长期忽略. 最近才开始体会到数据生成器的重要性.

1. 数据生成器

以结构化数据为例, 数据生成器的输入包括:

属性 (特征) 个数 $m$ ;
各个属性服从的分布 (概率密度函数);
属性之间的关系, 即联合分布 (联合密度函数);
数据量 $n$ .

输出则为按照这些函数随机生成的 $\\times m$ 矩阵.

说明:

如果要获得枚举值, 使用相应阈值即可 (如小于 0 为负例, 否则为正例);
一般假设各条数据独立, 生成 $n$ 条数据不超过 1 条数据的 $n$ 倍时间, 所以数据生成起来很快, $n$ 可以非常大.

现成的招数点击如下链接: 使用python进行数据生成.

2. 学习器

以回归问题为例, 学习器的输入包括:

数据集, 一个 $\\times m$ 矩阵. 也可以表示条件矩阵 $\\mathbf{X}$ 和标签矩阵 $\\mathbf{Y}$ , 参见机器学习的数学基础 5: 数据集的混合表示法.
指定的决策属性, 通常是最后一个.

输出为一个函数
$\\mathbb{R}^{m - 1} \\rightarrow \\mathbb{R}$ .

优化目标:
$\\min \\sum_{i = 1}^n \\mathcal{l}(f(\\mathbf{x}_i), y_i)$ .

3. 两者关系

联系如下:

生成器是一个正向的过程 (由概率密度函数到数据), 学习器是一个逆向的过程 (由数据到概率密度函数, 但一般需要对分布的类型作假设, 如高斯);
生成器属于概率的范畴, 学习器属于统计的范畴;
类似于地震波正演与反演的关系;
类似于老师出题与学生做题 (如果目标是获得相应的概率密度函数).

区别如下:

生成器可以获得大量的 (理论上为无穷) 数据, 学习器所依赖的数据量有限;
多数学习器并不去推导概率密度函数 (或相关参数), 而仅仅是建立一个模型进行预测. 所以两者之间并非真正意义的逆过程. 这导致很多学习器表面看起来就是“猜”, 缺乏理论支撑.
2.1 $k$ NN 就是不需要理论的一个典范. 当然, 它抓住了客观世界的本质: 条件属性越相似, 决策属性也应该越相似. 见: https://blog.csdn.net/minfanphd/article/details/117505221.
2.2 决策树 ID3 的论文题目为 Inductive of decision trees, 它只是作了一定的归纳. 信息熵看起来美, 但仅仅用于启发式地选择分裂属性, 和数据内在的分布没有任何关系.
2.3 NB 探索了属性之间的关系, 有一定的理论性. 在数值型数据的 NB 算法中, 还需要对数据分布进行假设, 这使其理论性更强. 参见日撸代码300行（51-60天，kNN 与 NB）. 条件属性之间的独立性假设简单粗暴, 但适用性强.

4. 讨论

EM 算法、概率矩阵分解 Probabilistic matrix factorization, PMF 都用到了 maximal likelihood, 是数理统计的招数.
我们在做机器学习理论分析的时候, 必须要增加一些基础假设, 否则条件不够, 没法推导. 参见 http://www.fansmale.com/publications.html 中
39 Yan-Xue Wu, Xue-Yang Min, Fan Min, Min Wang. Cost-sensitive active learning with a label uniform distribution model. International Journal of Approximate Reasoning. (2019-02) 49-65.
46 Min Wang, Yao Lin, Fan Min, Dun Liu. Cost-sensitive active learning through statistical methods. Information Sciences. (2019) 460-482.

5. 小结

自己写一个数据生成器, 再写一个学习器, 你就会有更多体会.

未完待续

以上是关于机器学习数学基础: 数据生成器与学习器的关系的主要内容，如果未能解决你的问题，请参考以下文章

机器学习之集成学习

黄佳《零基础学机器学习》chap2笔记

机器学习入门

07-noderepr 图机器学习之图表征学习

机器学习之集成学习