数据挖掘随笔1

Posted 2020-11-06 wangziyan

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据挖掘随笔1相关的知识，希望对你有一定的参考价值。

----------------------------------------------------------------------------

概览：

为什么需要数据挖掘：

　　Data Rich Information Poor

数据挖掘的一些资料：

　　搜索文章最好用google

　　WEKA是新西兰研发的一款开源的免费的数据挖掘的软件，用户友好，可视化

　　UCI有数据挖掘需要的一些数据集

　　MATLAB各种各样软件包

　　KDnuggets大型的数据挖掘的网站，一些information

---------------------------------------------------------------------------------

几个定义：

Data(Logical,Physical)

Big data(数据多，产生快，方方面面，数据类型越来越多)（大到传统意义的方法无法存储）

大数据及数据分析数据挖掘这些的应用：

Public Security（通过可视化直观看到规律，比如通过预测劫匪会抢劫的位置，在劫匪抢劫之前将其制止，降低犯罪率）

Health Care Application（Personalized Madicine通过对DNA的分析，将换同样疾病的人使用不同的药物医治）

Location Data:Urban Planning(城市规划)，Mobile User(家长知道孩子在哪里),Shopper(通过购物车RIFD射频标签获得购物者的轨迹，停留时间)

Retail Data:Targeted Marketing目标客户（分析喜好），Sentiment Analysis（情感分析，买完了以后的感受，识别出评价的一段话的开心或者不开心）

Social Network

Sports(Moneyball okaland点球成金)

Attractiveness Mining（怎么样的是女神，最有吸引力，把所有的信息都收集起来）

-----------------------------------------------------------------------------------------------------------------------------

分类问题Classification(打标签)（我之前通过训练告诉是猫是狗，训练出一个模型，后来给它喂一张图，它就知道是猫是狗）：

Algorithm:

Decision Tree 决策树

K-Nearest Neighbours KNN

Neural Netwoks 神经网络

Support Vector Machines 支持向量机

分界面：

防止Overfitting，过拟合

Cross Validation（数据分为训练和测试两部分）

Confusion Matrix（混淆矩阵）

TP FP

FN TN

Receiver Operating Characteristic(ROC)

AUC越接近于1越好

Cost Sensitive Learning（带着权重来考虑，错误的代价不同）

Lift Analysis提升度（把最有可能购买的客户分析出来，进行打电话询问，会比随机的效果好很多）

聚类和其他数据挖掘问题

Clustering(是没有标签的！没有事先的人为的标签）

不是我告诉它要聚成怎么样的，而是在这一个group里之间的距离比较接近自动聚为一组，不同group之间的差异是比较大的

Distance Merics:

Euclidean Distance欧式距离

Manhattan Diatance

Manalanobis Distance

Algorithms聚类算法:

K-Means

Saquential Leader

Affinity Propagation

Applications:

Market Research

Image Segmentation

Social Network Analysis

层次型聚类

Association Rule(关联规则,买了一个就可能买另一个)

Regression(线性回归，最终可以是曲线，也要防止Overfitting过拟合)

Seeing is Knowing(可以做一个可视化)

Performance Dashboard(将数据用一些图表，柱状图这些可以清晰的展示出来)

有一些可视化软件是非常有价值的，会看起来高大上一些（就不用自己来写软件了）

数据预处理（real data are ofen dirty）

以上是关于数据挖掘随笔1的主要内容，如果未能解决你的问题，请参考以下文章