数据挖掘工作经验
Posted lgx-fighting
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘工作经验相关的知识,希望对你有一定的参考价值。
有趣的生日现象:一个银行系统,5%的用户是同一天出生的(系统录入有问题,有默认值)
对空缺值得处理:
对遗漏数据的处理方法主要有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。
数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化
利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。
对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。
聚类分析当中,MIN(单链)、Chameleon等技术可以处理任意形状的簇
日志数据挖掘
(一).去掉没用的信息
(二).日志的归类(k-means--k不好选择)字符串的相似度进行归类
所使用的算法:python-Levenshtein的ratio函数计算字符串相似度
余弦相似度的算法计算时间维度的相似性
分词:
针对英文:nltk
针对中文:jieba
分词后进行特征工程:(文本特征具有高度的稀疏性,你直接TF-IDF得到的维度太高,而且高稀疏。做聚类的话,建议先PCA降维到合适的维度。比如50,100,200,可以调参得到合适的维度。最后再进行聚类比较好。)
1.向量化
2.TF-IDF 使用完后就可以进行分类或者聚类分析。
3.Hash trick 就是非常常用的文本特征降维方法(因为哈希过后,已经不知道data代表的特征名字和意义,所以解释性差)哈希函数最常见的是选择一个较大的素数然后求余数得到hash值。当然也有其他的做法。所以一般会根据你要映射的高维维度选择一个附近的素数。这样我们就不用考虑hash函数的问题了
4.动态规划方法维特比算法
(三).
1.关联
2.分类
3.聚类(词袋模型有很大的局限性,因为它仅仅考虑了词频,没有考虑上下文的关系,因此会丢失一部分文本的语义。但是大多数时候,如果我们的目的是分类聚类,则词袋模型表现的很好。)
以上是关于数据挖掘工作经验的主要内容,如果未能解决你的问题,请参考以下文章