算法--随便写写
Posted mujun95
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了算法--随便写写相关的知识,希望对你有一定的参考价值。
结巴分词:jieba.cut()
决策树
集成学习
无监督学习
tf-idf文本特征提取
tf 词频
idf 逆向文档频率
tf-idf 思想:一篇文章中出现多次,其他文章很少出现
TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率
逆向文档频率(inverse document frequency,idf)是一个词语普遍重要性的度量。某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到
Tf-idf的重要性:分类机器学习算法进行文章分类中前期数据处理方式
决策树
机器学习基本步骤
数据获取
数据基本处理
缺失值处理
补空
确定特征值,目标值
切割数据
特征工程
特征提取
需要转数据字典,才能转换one hot 编码
建立模型
模型评估
决策树的可视化
保存树的结构到dot文件
- sklearn.tree.export_graphviz() 该函数能够导出DOT格式
- tree.export_graphviz(estimator,out_file=‘tree.dot’,feature_names=[‘’,’’])
- tree.export_graphviz(estimator,out_file=‘tree.dot’,feature_names=[‘’,’’])
export_graphviz(estimator, out_file="./data/tree.dot", feature_names=[‘age‘, ‘pclass=1st‘, ‘pclass=2nd‘, ‘pclass=3rd‘, ‘女性‘, ‘男性‘])
集成学习
bagging 过拟合问题 N个模型 投票 同一个问题,互相遏制变壮
boosting 欠拟合,分段拟合
最终结果
只要单分类器的效果表现不太差,集成学习的结果总要优于单分类器的
所以说 集成学习好
bagging
解决 过拟合问题
集成原理:
采集不同子样本
n个子样本分别构建模型
n个模型对一个问题平权投票
随机森林构造过程
bagging + 决策树
随机森林是一个包含多个决策树的分类器
1.选取m个样本数据(m<<M)
2.随机选取k个特征(k<K)
3.
随机森林api
bagging优点
在原算法的基础上提高2%泛化正确率
简单 方便 实用
boosting 集成学习
通过学习从弱到强的过程,分段拟合
1.Adaboost
2.GBDT
3.XGBoots
实现Adaboost
注意力放到错误的数据上
- 放大错误数据的权重
- 缩小预测正确数据的权重
1.雪莲一个模型
2.更具模型结果放大错误数据,缩小正确数据
3.在训练一个模型
4.然后是迭代很多次
5.加却投票
如何确认投票权重
如何调整数据分布
通过投票权重调整数据分布
预测正确缩小
预测错误 放大
bossting和bagging 的区别
数据方面
bagging 有放回随机采样
boosting 根据前一轮结果调整数据重要性
投票方面
bagging 平权投票
boosting 加权投票
学习顺序
bogging 并行的 独立训练互相没任何关系
bossting 串行 学习有先后顺序
主要作用
bogging 过拟合问题
bossting 欠拟合问题
????????????
GBDT
????????????
XGBoost【了解】
XGBoost= 二阶泰勒展开+boosting+决策树+正则化
聚类算法
认识聚类算法
无监督学习 找到数据内部规律和结构的过程
规则
使用不同的据类准则,产生的聚类结构不同
现实中的应用
推荐系统 用户画像,广告推荐.....
聚类算法的概念
典型 的 无监督学习 主要用于将相似的样本自动归到一个类别
聚类算法和分类算法区别
一个是无监督学习,一个是有监督学习
API:
sklearn.cluster.KMeans(n_clusters=8)
- 参数:
- n_clusters:开始的聚类中心数量
- 整型,缺省值=8,生成的聚类数,即产生的质心(centroids)数。
- n_clusters:开始的聚类中心数量
- 方法:
- estimator.fit(x) -
- estimator.predict(x) -
- estimator.fit_predict(x)
- 计算聚类中心并预测每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)
流程
- 构造数据
- 建立模型
- 模型评估
寻找最优初始点
’‘肘’‘方法
轮廓系数法
Canopy算法配合初始聚类
以上是关于算法--随便写写的主要内容,如果未能解决你的问题,请参考以下文章