数据精简之(数据值精简和字段的精简)

Posted liyuewdsgame

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据精简之(数据值精简和字段的精简)相关的知识,希望对你有一定的参考价值。

一、数据精简之数值精简

•1. 数据值精简的需求
  • 原始数据中存在太细、过于底层的数据数值,对于许多数据挖掘方法而言,将无法从中找出层次较高、趋势导向的知识
• 2.类别型数据数值精简
  • 数据一般化(Data Generalization)
• 3.连续型数据数值精简
  • 数据离散化(Data Discretization)

二、数据精简之字段精简

• 在做数据挖掘之前,将所有的字段做分析,并选择重要且具有区分能力的字段做为输入,是相当重要的
• 因为如果将不重要的字段也输入至系统中,除了拉长系统学习的时间,增加系统的复杂度外,系统的正确率也会受到一定程度的影响


• 如何判断字段的重要性
  • 专家的经验及直觉
  • 自动化的分析方法
    • 如为分类模型可用统计检定的技术来加以判断
    • 如为预测模型可用皮尔森相关系数来加以判断
    • 如为分群模型可利用主成份分析及因素分析来加以判断

以上是关于数据精简之(数据值精简和字段的精简)的主要内容,如果未能解决你的问题,请参考以下文章

SQL优化 总结 精简

Linux系统裁减之,制作一个极度精简的Linux-3-为精简的系统增加网络功能和关机重启功能

基于OceanStor Dorado V3存储之精简高效 Smart 系列特性

[原创] WINDOWS 7 精简教程之驱动精简 可用于64和32

03.RISC精简指令系统与总线

Layui表单提交之精简再精简