数据挖掘工作经验

Posted lgx-fighting

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘工作经验相关的知识,希望对你有一定的参考价值。

有趣的生日现象:一个银行系统,5%的用户是同一天出生的(系统录入有问题,有默认值)

对空缺值得处理:

对遗漏数据的处理方法主要有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。

数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化

利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数

对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。

聚类分析当中,MIN(单链)Chameleon等技术可以处理任意形状的簇

日志数据挖掘
(一).去掉没用的信息
(二).日志的归类(k-means--k不好选择)字符串的相似度进行归类
所使用的算法:python-Levenshteinratio函数计算字符串相似度
余弦相似度的算法计算时间维度的相似性
分词:
针对英文:nltk
针对中文:jieba
分词后进行特征工程:(文本特征具有高度的稀疏性,你直接TF-IDF得到的维度太高,而且高稀疏。做聚类的话,建议先PCA降维到合适的维度。比如50,100,200,可以调参得到合适的维度。最后再进行聚类比较好。)
1.向量化
2.TF-IDF 使用完后就可以进行分类或者聚类分析。
3.Hash trick 就是非常常用的文本特征降维方法(因为哈希过后,已经不知道data代表的特征名字和意义,所以解释性差)哈希函数最常见的是选择一个较大的素数然后求余数得到hash值。当然也有其他的做法。所以一般会根据你要映射的高维维度选择一个附近的素数。这样我们就不用考虑hash函数的问题了
4.动态规划方法维特比算法
(三).
1.关联
2.分类
3.聚类(词袋模型有很大的局限性,因为它仅仅考虑了词频,没有考虑上下文的关系,因此会丢失一部分文本的语义。但是大多数时候,如果我们的目的是分类聚类,则词袋模型表现的很好。)

















以上是关于数据挖掘工作经验的主要内容,如果未能解决你的问题,请参考以下文章

一位10年Java工作经验的架构师聊Java和工作经验

一位10年Java工作经验的架构师聊Java和工作经验

一位10年Java工作经验的架构师聊Java和工作经验

浪叫兽大数据工作经验简介

数据挖掘工作经验

数据挖掘薪酬分段对应工作经验/学历画柱状图招聘网站的职位招聘数据预处理