一、决策树
1、决策树是一种基本的分类与回归方法,本文主要讨轮用于分类的决策树,决策树模型呈现树形结构,在分类问题中,表示基于特征对实例进行分类的过程,
学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型
预测时,对新的数据,利用决策树模型进行分类,
决策树学习通常分为3个步骤:特征选择、决策树的生成和决策树的修剪,
2、特征选择:
特征选择在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率,
选择的准则是信息增益或信息增益比
信息熵:
经验熵:类别/D
二、条件随机场
条件随机场(CRF)是给定一组输入随机变量条件下,另一组随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场,条件随机场可以用于不同的预测问题,下面主要讨论在标注问题的应用
字面理解:随机场,是指随机变量,条件,是指在给定一组输入随机变量作为条件,输出变量的条件概率分布模型