厦大数据挖掘中心|国家社科基金重大项目《大数据与统计学理论的发展研究》顺利结项

Posted 厦门大学数据挖掘研究中心

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了厦大数据挖掘中心|国家社科基金重大项目《大数据与统计学理论的发展研究》顺利结项相关的知识,希望对你有一定的参考价值。

厦门大学管理学院教授、数据挖掘研究中心主任朱建平担任首席专家的国家社会科学基金重大项目《大数据与统计学理论的发展研究》(13&ZD148)顺利结项。该项目由厦门大学数据挖掘研究中心课题联合国家统计局统计科学研究所、厦门大学计算机科学系、厦门大学统计系共同研发,由台北医学大学谢邦昌教授、耶鲁大学马双鸽教授、厦门大学计算机系张德富教授、国家统计局原统计科学研究所所长潘璠高级统计师、厦门大学统计系方匡南教授分别作为子课题负责人,从大数据的数据特征对统计学发展的影响、大数据下的数据整合、高维变量选择方法研究、大数据下的技术保障、应用探索五个层次展开研究。

在该项目的支持下,完成的代表性研究成果有:

(一) 由厦门大学出版社出版了大数据系列丛书3本,即《大数据概论》、《Excel2013在数据挖掘中的应用》、《文本挖掘技术及其应用》。

(二) 对大数据分析的统计方法进行了研究,并开展了网络舆情分析与大数据的应用研究,发表了系列论文33篇,其中权威刊物发表15篇、SCI论文18篇。

(三) 围绕该项目的研究领域,以系列论文为基础,以专著的形式完成了该项目的总体研究任务,其专著《大数据与统计学理论的发展研究》的主要内容及成果为:

  大数据下的统计

理论体系的研究

大数据时代是建立在互联网、物联网等现代网络渠道中广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和展示的信息时代。基于统计学的视角分别从大数据下的统计理论体系研究、大数据下的数据集综合分析、大数据下的高维变量选择方法、大数据下的统计并行计算方法等四个方面着重回顾和评述了相关研究,辨析了大数据的概念,澄清了大数据的认知误区。大数据从狭义的角度来讲,不仅是指数据规模巨大,还指数据结构复杂;从广义角度来讲,大数据还指处理大规模复杂数据的技术。对统计工作者而言,这种改变不仅意味着拓宽了统计研究的范畴、丰富了统计研究的内容、增强了统计学的生命力,还意味着统计工作及统计研究的四个转变,即转变统计研究过程、转变统计研究方法、转变统计研究目的和转变统计研究工作思想。

  大数据下的数据

集整合分析研究

在信息爆炸的时代,大数据通常由来源、主体或格式不同的数据合并而成,且以几何级数增长,了解不同子样本间的异质和同质性是大数据分析的两个重要目标。整合分析( Integrative Analysis) 方法同时兼顾这两方面,从统计角度考虑数据的异质性和同质性,避免因地域、时间等因素造成的样本差异而引起模型不稳定,是研究大数据差异性的有效方法。通过目标函数综合不同地区的数据,以多个变量为研究目标,充分考虑了不同地区间相互影响,同时求解多个模型。

  大数据下的高维

变量选择方法研究

高维数据广泛出现在自然科学、人类学和工程学等领域,其主要特点有:一是解释变量维度很高,且样本量比较小;二是噪声多,存在着许多跟因变量无关的解释变量。由于高维回归模型中系数存在稀疏性,因此必须通过变量选择技术筛选出最优子集,提高模型解释能力和估计精度。该项目主要研究基于惩罚因子的高维变量选择方法。

  大数据下的统计

方法并性计算研究

社交网络、电子商务、微博、音视频分享、生物科技等互联网领域以及研究机构科学实验源源不断地产生大量的数据,传统的数据挖掘算法不能有效地从这些大数据中挖掘出有价值的信息。在大数据分析中的高维数据特征选择、组合分类等问题,都需要高效的大数据处理算法。目前,依托于云计算的分布式处理和分布式集群等技术有强大的计算能力,能够对海量数据进行有效地挖掘。与现有的同类研究相比,该项目的主要研究内容包括, 将数据挖掘算法进行MapReduce化;SVM、DBSCAN、CART、BN和FP-Growth等五类经典算法实现数据的分类、聚类、回归和关联关联分析;部分现有的数据挖掘算法已经实现了MapReduce并行计算;对复杂的数据挖掘算法进行MapReduce化并探索在MapReduce下复杂数据挖掘算法的加速性能等研究。

  大数据下的统计方法

应用研究——网络舆情分析

随着互联网的普及,网络已成为人们表达自己观念、想法和态度不可缺少的平台。网络舆情成为社会舆情的一种重要表现形式,其对于电子商务、网络信息安全都具有十分重要的意义。该项目根据特定研究目的,对网络舆情进行特征提取和解读,主要从网络舆情语料的主题发现、主题的关联分析、语料的情感倾向分析和热点话题发现四个方面进行分析。同时,探讨了大数据网络舆情分析在三个领域中的应用,将大数据下的统计方法运用于实际研究中,从模型结果出发提出政策决策等方面的支撑建议。

该项目在研发过程中,得到了国家统计局统计科学研究所、厦门大学社科处、厦门大学管理学院、厦门大学曾五一教授、翁君奕教授和李文溥教授的支持和指导,在此表示衷心感谢!同时感谢该项目研发团队的每一位成员。三年来的共同努力,在大数据与统计学理论的发展研究中取得了阶段性的辉煌成果,也为我们以后继续开展大数据的理论和应用研究奠定了坚实的基础。



厦门大学数据挖掘研究中心

陈远星

2018年2月4日



长按关注厦门大学数据挖掘研究中心官方微信





官方网站:http://xdmrc.org/ 


新浪微博:厦门大学数据挖掘研究中心



以上是关于厦大数据挖掘中心|国家社科基金重大项目《大数据与统计学理论的发展研究》顺利结项的主要内容,如果未能解决你的问题,请参考以下文章

济南硅谷∣千亿产业规模,国家级大数据产业中心

国家绿色数据中心科技产业化计划— 人工智能”产业创新链 大数据企业

中国健康医疗大数据中心盘点(持续更新)

文件 | 《河南省推进国家大数据综合试验区建设实施方案和若干意见》发布 (全文)

工业大数据应用技术国家工程实验室

大数据凉凉了?Apache将一众大数据开源项目束之高阁!