机器学习1

Posted 2022-03-16 qing0228

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习1相关的知识，希望对你有一定的参考价值。

机器学习主要由监督学习、无监督学习。

　　监督学习主要用于解决分类和回归问题。

　　无监督学习主要用于解决聚类问题。

　　在机器学习过程中主要有以下几个步骤：

数据预处理
特征工程
数据建模
结果评估

　　首先介绍数据预处理，主要包括数据清洗、数据采样以及数据集的拆分三个部分。

　　在数据清洗过程中主要对各种脏数据进行对应方式的处理，力保数据的完整性、合法性、一致性、唯一性以及权威性。

　　在数据集的拆分中，主要将数据集拆分为三部分，分别是训练集、预测集、验证数据集。其中验证数据集主要是为了在构建过程中评估模型、提供无偏估计进而调整模型参数。而日常使用中常用的拆分方式为：留出法和k-折交叉验证法。两种方法使用时均需要采用互斥拆分。在使用留出法时需要注意拆分保持前后数据的分布一致，避免划分过程中引入额外偏差导致结果产生影响。k-折交叉验证法将数据分为大小相似的k个互斥子集，并尽量保持每个自己数据分布的一致性，从而可以获取k组训练-测试集。

　　其次是特征工程的讲解。主要包括特征编码、特征选择、特征降维以及规范化几个方面。

　　特征编码是对数据集中出现的字符串信息转换为数值形式。one-hot编码采用N位寄存器的方法对N个状态进行编码。例如，性别属性包括男、女两个值，对其进行编码，0代表男生、1代表女生。语义编码是采用词潜入的方式，词嵌入信息可以编码语义信息，生成特征语义表示。使用语义编码可以体现数据间的语音关系。例如，http://www.sohu.com/a/129290647_473283 中TensorFlow自动句子语义编码，谷歌开源机器学习模型 Skip-Thoughts。

　　特征选择主要包括过滤法、包裹法和嵌入法。

　　特征降维。特征降维可以减少特征属性的个数，确保特征属性之间是相互独立的。而且过多的特征属性会妨碍模型查找规律。比如一个模型中有多个属性，分别是性别、年龄、名字、收入、婚否等多个属性，但是我们接下来要对数据中的男女进行分类的话，只需要考虑性别即可，其余属性即可剔除，这就是达到了数据降维的目的。机器学习中常用的降维方法为PCA、LDA。

　　规范化主要是将数据标准化、进行区间缩放或者进行归一化。

　　数据建模

　　根据所需解决的问题，进行判断，问题是属于分类问题、回归问题还是聚类问题。判定好问题类型，选择合适的算法来针对问题具体解决。

　　对于分类问题，主要有以下几个算法：决策树、贝叶斯、支持向量机、逻辑回归和继承学习等

　　对于回归问题有：线性回归、岭回归等

　　对于聚类问题有：K-means、高斯混合聚类、层次聚类以及密度聚类等

　　最后进行结果评估。

　　评估指标有很多，如果是有监督学习的话，仅仅根据测试机的预测准确率是远不够的，可以参考：https://blog.csdn.net/zk_ken/article/details/82013289

以上是关于机器学习1的主要内容，如果未能解决你的问题，请参考以下文章