数据挖掘
Posted JonyQ
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘相关的知识,希望对你有一定的参考价值。
了解统计学
实用统计 教材 高老师 人大吴喜之老师的 《从数据到结论》 教材和资料 需要懂点统计
population 数据全集
sample 一部分数据 实际处理数据 基本为样本
statistics 统计量
《女士品茶》 统计发展史
mean 平均值
median 中位数
mode 众数 出现最多的数字
range 极差
奥卡姆剃刀定律 keep it simple stupid
原假设 怀疑主义
P值 统计显著性 0-1 <0.05 P值 越小 假设结论正确强度越好
Q值
histogram 数据可视化
variance 方差
standard deviation 标准差
变量的分类
三种测量尺度 measurement scales
变量类型 因变量 自变量 定量 定性
三 、数据挖掘算法
分类 c4.5
统计学习 SVM EM
关联分析 apnon
链接挖掘 pagerank hits
聚类 K-Means birch
袋装与推进 adaboost
决策树
神经网络
多层向前神经网络(Multilayer Feed-Forward Neural Network)
多层向前神经网络组成部分
输入层(input layer),隐藏层(hiddenlayer),输出层(output layer)
每层由单元(units)组成
输入层(input layer)是由训练集的实例特征向量传入
经过连接结点的权重(weight)传入下一层,一层的输出是下一层的输入
隐藏层的个数是任意的,输出层和输入层只有一个
每个单元(unit)也可以被称作神经结点,根据生物学来源定义
上图称为2层的神经网络(输入层不算)
一层中加权的求和,然后根据非线性的方程转化输出
作为多层向前神经网络,理论上,如果有足够多的隐藏层(hidden layers)和足够大的训练集,可以模拟出任何方程
隐藏单元数量 与问题复杂程度 关联
隐藏层数 先当前案例中一般为1层,特殊场景多层
以上是关于数据挖掘的主要内容,如果未能解决你的问题,请参考以下文章