荐书读《数据挖掘》,读懂数据挖掘!

Posted 刘鹏看未来

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了荐书读《数据挖掘》,读懂数据挖掘!相关的知识,希望对你有一定的参考价值。


随着教育部公布2017年度普通高等学校本科专业备案和审批结果的通知,目前申请获批数据科学与大数据技术专业(专业代码:080910T)的高校已增至278所。在获批高校越来越多的同时,如何在专业建设过程中选择适用教材,却逐渐成为了各大高校面临的一大难题。


而早在2016年,清华大学博士、南京大数据研究院院长刘鹏教授就联合国内多所高校从事一线教学科研任务的专业师资,开始编写大数据系列教材。目前,《云计算》、《大数据》、《大数据库》、《数据挖掘》、《深度学习》、《大数据可视化》、《虚拟化与容器》、《大数据实验手册》等本科系列教材陆续出版,可为大数据教学提供系统的教材支撑。



今天为大家重点推荐介绍《数据挖掘》,以后还会陆续推荐其他教材,欢迎持续关注:



《数据挖掘》概述



本书是国内众多高校采用的知名教材《云计算》(1~3版)的姊妹篇(《云计算》名列中国计算机类图书被引用量第一名),与《大数据》在内容上实现互补,适合作为相关专业教材,也可作为大数据开发人员和爱好者的学习和参考资料。



《数据挖掘》主要内容



本书作为大数据人才培养丛书之一,定位于大数据挖掘技术与应用。本书系统地介绍了数据挖掘算法理论与方法、工具和应用,包括经典数据挖掘算法,大数据环境下常用数据挖掘算法的优化,大数据新常态下催生的数据分析方法(如推荐系统、链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析)、工具与应用。


《数据挖掘》大纲


第一章——绪论


通过阅读本章让读者快速地了解“什么是数据挖掘”,对数据挖掘有一个初步了解。首先讲述数据挖掘的基本概念,包括数据挖掘定义、数据挖掘对象、数据挖掘特性、数据挖掘的过程以及数据挖掘起源和发展历程。然后介绍常用的各类数据挖掘工具,分析每个工具提供的功能及其特点。最后讨论数据挖掘主要的应用场景和典型应用。


第二章——数据预处理与相似性


数据是数据挖掘的目标对象和原始资源,数据质量优劣对数据挖掘最终结果起着决定性的作用。原始数据通常存在着噪声、不一致、部分数据缺失等问题,为了达到较好的挖掘结果,有必要根据数据的类型特点进行清理、规范化、约简、离散化等预处理工作,减少错误信息对挖掘算法干扰从而达到提升数据挖掘结果的准确率和有效性目的。数据对象之间的相似性计算是聚类、最近邻分类、异常检测等经典问题的基础知识,与数据对象属性类型密切相关,需要根据数据类特征作区分处理。本章介绍数据挖掘任务中常见的基本数据类型,重点讲解数据预处理和数据相似性度量相关基础知识,为本书后续章节算法学习做准备。


第三章——分类


分类是一种很重要的数据挖掘技术,也是数据挖掘研究的重点和热点之一。分类的目的是分析输入数据,通过训练集中的数据表现出来的特性,为每一个类找到一种准确描述或者模型。由此生成的类描述用来对未来的测试数据进行分类。尽管这些未来测试数据的类标签是未知的,仍可以由此预测这些新数据所属的类。也可以由此对数据中每一个类有更好的理解。本章主要介绍了分类的基本概念、决策树、贝叶斯分类、支持向量机和实例应用。


第四章——回归


回归是一种基于统计原理,对大量统计数据进行数学处理,并确定变量(或属性)之间的相关关系,建立一个相关性的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的方法。回归分析被广泛应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。本章重点介绍回归的基本概念、一元回归分析、多元回归分析和逻辑回归分析等,最后用一个实例,用预测的方法给房子定价。


第五章—— 聚类


“物以类聚,人以群分”,聚类(Clustering)是人类认识世界的一种重要方法。聚类就是按照事物的某些属性,把事物聚集成簇,使簇内的对象之间具有较高的相似性,而不同簇的对象之间的相似程度较差。聚类是一个无监督的学习过程,聚类是要找到对象的特征,是进一步分析和处理数据的基础。在商业上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征。在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。本章主要介绍了划分聚类、层次聚类、基于密度聚类的方法和实例应用。


第六章——关联规则


关联规则是一种描述性的而非预测性的方法,经常用于发现隐藏在大型数据集背后的,项集之间的有趣关联或相互关系。作为一种无监督分析技术,关联规则在购物篮分析、点击流分析、推荐系统、医疗诊断和科学数据分析等方面得到广泛应用。本章重点讲解布尔关联规则中的Apriori算法和FP-growth算法,介绍约束性关联规则、增量式关联规则和多层关联规则的概念与研究现状,最后将关联规则应用于银行业中,有效挖掘个人信用关联情况。


第七章——常用大数据挖掘算法优化改进


随着“信息爆炸”时代的来临,数据挖掘的应用日趋广泛。许多商业决策者利用数据挖掘技术从海量的数据中获取有用的信息,为以后企业更好地决策提供帮助。然而,传统的数据挖掘算法在面对海量数据的时候,由于各种原因,执行效率低下,已经不能够满足人们日益增长的性能需求,需要寻找更加高效的算法或者执行策略。为了解决这一系列效率低下的问题,本章对常用大数据挖掘算法进行优化和改进,并将改进后的算法应用到具体的实例中。本章主要介绍了分类算法、聚类算法、关联规则,对这些算法进行了优化和改进。


第八章——推荐系统


推荐系统(Recommendation System,简称RS)技术,根据用户的兴趣、行为、情景等信息,把用户可能感兴趣的内容主动推送给用户。近年来,推荐系统技术得到了长足的发展,不但成为学术研究的热点之一,而且在电子商务、在线广告、社交网络等重要的互联网应用中大显身手。本章首先介绍了推荐系统的概念,其次重点讲解了目前流行的基于内容的推荐和协同过滤技术,接下来对其他推荐技术进行综述性介绍,最后,介绍了如何运用协同过滤算法实现电影推荐的一个实例。


第九章——互联网数据挖掘


互联网数据挖掘是互联网技术与数据挖掘技术深度融合的新领域。


2012年始智能手机的广泛应用,全球电子商务飞速迭代发展,云计算技术大量应用落地而催生的信息化建设落地,AI技术应用等等都为我们提供海量且较易于获取的新数据。


如何面对和处理这些数据,如何获得优质、可靠信息,为预测决策提供更好的支持,一直是数据挖掘探索和追求的。本章结合数据仓库技术、非传统统计学意义的数据分析视角,重新审视数据治理和数据挖掘。


对经典应用Google PageRank、时间序列分析、构建数据挖掘模型、使用模型进行知识发现、日志分析挖掘工具等进行基本的介绍和解读,通过关联传统的财务数据管理技术、绘画中构图技法及数据挖掘模型应用,电商物流及教育信息化数据挖掘案例,从人的原点出发,以人为本考虑,展现数据挖掘的更深内涵。


附录A 数据挖掘工具Weka


附录A主要介绍Weka简介、Explorer界面、Knowledge Flow界面、Experimenter界面等内容。


附录B Spark 机器学习库 MLlib


附录B主要介绍Spark 简介、Spark RDD、Spark MLlib简介、Spark MLlib数据类型、Spark MLlib算法库等。


附录C 大数据与人工智能实验环境


点击【阅读原文】即可了解更多《数据挖掘》详情



关注刘鹏看未来(ID:lpoutlook)

比别人早一步看见未来!

▼▼▼


刘鹏教授,清华大学博士毕业,现任南京大数据研究院院长、中国大数据应用联盟人工智能专家委员会主任,兼任中国信息协会大数据分会副会长、中国大数据专家委员会委员、中国大数据技术与应用联盟副理事长,同时也是中国云计算(chinacloud.cn)、中国大数据(thebigdata.cn)网站的创始人,《云计算》、《大数据》教材主编。


▼▼▼▼点击“阅读原文”了解和购买《数据挖掘》

以上是关于荐书读《数据挖掘》,读懂数据挖掘!的主要内容,如果未能解决你的问题,请参考以下文章

荐书如何让数据“说话”?看看《大数据可视化》就会了!

雍正荐书 | MongoDB进阶与实战:微服务整合性能优化架构管理

荐书:《PostgreSQL指南:内幕探索》| 留言送书

今日荐书Linux Shell 脚本攻略(第 2 版)

Java性能优化推荐书!十年Java编程开发生涯

每周荐书:SLAM首著问世(评论送书)