数据挖掘工作经验

Posted 2020-12-25 lgx-fighting

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据挖掘工作经验相关的知识，希望对你有一定的参考价值。

有趣的生日现象：一个银行系统，5%的用户是同一天出生的（系统录入有问题，有默认值）

对空缺值得处理：

对遗漏数据的处理方法主要有：忽略该条记录；手工填补遗漏值；利用默认值填补遗漏值；利用均值填补遗漏值；利用同类别均值填补遗漏值；利用最可能的值填充遗漏值。

数据规范化：指将数据按比例缩放(如更换大单位)，使之落入一个特定的区域（如0-1）以提高数据挖掘效率的方法。规范化的常用方法有：最大-最小规范化、零-均值规范化、小数定标规范化

利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。

聚类分析当中，MIN（单链）、Chameleon等技术可以处理任意形状的簇

日志数据挖掘
（一）.去掉没用的信息
（二）.日志的归类（k-means--k不好选择）字符串的相似度进行归类
所使用的算法：python-Levenshtein的ratio函数计算字符串相似度
余弦相似度的算法计算时间维度的相似性
分词：
针对英文：nltk
针对中文：jieba
分词后进行特征工程:（文本特征具有高度的稀疏性，你直接TF-IDF得到的维度太高，而且高稀疏。做聚类的话，建议先PCA降维到合适的维度。比如50,100,200，可以调参得到合适的维度。最后再进行聚类比较好。）
1.向量化
2.TF-IDF 使用完后就可以进行分类或者聚类分析。
3.Hash trick 就是非常常用的文本特征降维方法（因为哈希过后，已经不知道data代表的特征名字和意义，所以解释性差）哈希函数最常见的是选择一个较大的素数然后求余数得到hash值。当然也有其他的做法。所以一般会根据你要映射的高维维度选择一个附近的素数。这样我们就不用考虑hash函数的问题了
4.动态规划方法维特比算法
（三）.
1.关联
2.分类
3.聚类（词袋模型有很大的局限性，因为它仅仅考虑了词频，没有考虑上下文的关系，因此会丢失一部分文本的语义。但是大多数时候，如果我们的目的是分类聚类，则词袋模型表现的很好。）

以上是关于数据挖掘工作经验的主要内容，如果未能解决你的问题，请参考以下文章

一位10年Java工作经验的架构师聊Java和工作经验

浪叫兽大数据工作经验简介

数据挖掘工作经验

数据挖掘薪酬分段对应工作经验/学历画柱状图招聘网站的职位招聘数据预处理