数据挖掘随笔1
Posted wangziyan
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘随笔1相关的知识,希望对你有一定的参考价值。
----------------------------------------------------------------------------
概览:
为什么需要数据挖掘:
Data Rich Information Poor
数据挖掘的一些资料:
搜索文章最好用google
WEKA是新西兰研发的一款开源的免费的数据挖掘的软件,用户友好,可视化
UCI有数据挖掘需要的一些数据集
MATLAB各种各样软件包
KDnuggets大型的数据挖掘的网站,一些information
---------------------------------------------------------------------------------
几个定义:
Data(Logical,Physical)
Big data(数据多,产生快,方方面面,数据类型越来越多)(大到传统意义的方法无法存储)
大数据及数据分析数据挖掘这些的应用:
Public Security(通过可视化直观看到规律,比如通过预测劫匪会抢劫的位置,在劫匪抢劫之前将其制止,降低犯罪率)
Health Care Application(Personalized Madicine通过对DNA的分析,将换同样疾病的人使用不同的药物医治)
Location Data:Urban Planning(城市规划),Mobile User(家长知道孩子在哪里),Shopper(通过购物车RIFD射频标签获得购物者的轨迹,停留时间)
Retail Data:Targeted Marketing目标客户(分析喜好),Sentiment Analysis(情感分析,买完了以后的感受,识别出评价的一段话的开心或者不开心)
Social Network
Sports(Moneyball okaland点球成金)
Attractiveness Mining(怎么样的是女神,最有吸引力,把所有的信息都收集起来)
-----------------------------------------------------------------------------------------------------------------------------
分类问题Classification(打标签)(我之前通过训练告诉是猫是狗,训练出一个模型,后来给它喂一张图,它就知道是猫是狗):
Algorithm:
Decision Tree 决策树
K-Nearest Neighbours KNN
Neural Netwoks 神经网络
Support Vector Machines 支持向量机
分界面:
防止Overfitting,过拟合
Cross Validation(数据分为训练和测试两部分)
Confusion Matrix(混淆矩阵)
TP FP
FN TN
Receiver Operating Characteristic(ROC)
AUC越接近于1越好
Cost Sensitive Learning(带着权重来考虑,错误的代价不同)
Lift Analysis提升度(把最有可能购买的客户分析出来,进行打电话询问,会比随机的效果好很多)
聚类和其他数据挖掘问题
Clustering(是没有标签的!没有事先的人为的标签)
不是我告诉它要聚成怎么样的,而是在这一个group里之间的距离比较接近自动聚为一组,不同group之间的差异是比较大的
Distance Merics:
Euclidean Distance欧式距离
Manhattan Diatance
Manalanobis Distance
Algorithms聚类算法:
K-Means
Saquential Leader
Affinity Propagation
Applications:
Market Research
Image Segmentation
Social Network Analysis
_
层次型聚类
Association Rule(关联规则,买了一个就可能买另一个)
Regression(线性回归,最终可以是曲线,也要防止Overfitting过拟合)
Seeing is Knowing(可以做一个可视化)
Performance Dashboard(将数据用一些图表,柱状图这些可以清晰的展示出来)
有一些可视化软件是非常有价值的,会看起来高大上一些(就不用自己来写软件了)
数据预处理(real data are ofen dirty)
以上是关于数据挖掘随笔1的主要内容,如果未能解决你的问题,请参考以下文章