数据挖掘

Posted JonyQ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘相关的知识,希望对你有一定的参考价值。

了解统计学
实用统计 教材 高老师 人大吴喜之老师的 《从数据到结论》 教材和资料 需要懂点统计
population 数据全集
sample 一部分数据 实际处理数据 基本为样本
statistics 统计量
《女士品茶》 统计发展史
 
mean 平均值
median 中位数
mode 众数 出现最多的数字
range 极差
 
奥卡姆剃刀定律 keep it simple stupid
原假设 怀疑主义
P值 统计显著性 0-1 <0.05 P值 越小 假设结论正确强度越好
Q值
histogram 数据可视化
variance 方差
standard deviation 标准差
 
 
变量的分类
三种测量尺度 measurement scales
变量类型 因变量 自变量 定量 定性
 
三 、数据挖掘算法
分类 c4.5
统计学习 SVM EM
关联分析 apnon
链接挖掘 pagerank hits
聚类 K-Means birch
袋装与推进 adaboost
技术分享
 
技术分享
技术分享
技术分享
技术分享
技术分享
决策树
技术分享
技术分享
神经网络
 
多层向前神经网络(Multilayer  Feed-Forward Neural Network)
                                                          
技术分享
 
多层向前神经网络组成部分
输入层(input layer),隐藏层(hiddenlayer),输出层(output layer)
   每层由单元(units)组成
   输入层(input layer)是由训练集的实例特征向量传入
   经过连接结点的权重(weight)传入下一层,一层的输出是下一层的输入
   隐藏层的个数是任意的,输出层和输入层只有一个
   每个单元(unit)也可以被称作神经结点,根据生物学来源定义
   上图称为2层的神经网络(输入层不算)
   一层中加权的求和,然后根据非线性的方程转化输出
   作为多层向前神经网络,理论上,如果有足够多的隐藏层(hidden layers)和足够大的训练集,可以模拟出任何方程
 
隐藏单元数量 与问题复杂程度 关联
隐藏层数 先当前案例中一般为1层,特殊场景多层
 

以上是关于数据挖掘的主要内容,如果未能解决你的问题,请参考以下文章

笔记数据仓库与数据挖掘数据挖掘导论

学数据分析与数据挖掘用啥技术

Python数据挖掘——数据挖掘概况

数据挖掘算法与应用——数据挖掘导论

大数据、数据分析和数据挖掘的区别是啥?

数据挖掘 数据理解和预处理