DaSESS2015系列回顾之五:2015中国数据库上海峰会(下)

Posted 华东师范大学数据学院

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DaSESS2015系列回顾之五:2015中国数据库上海峰会(下)相关的知识,希望对你有一定的参考价值。

大数据时代数据库研究的独特性
摘要
由于信息技术在各行各业的深入应用,以及移动设备的普及,每天均有大量数据产生,逐渐诞生大数据这样一个概念。大数据时代的到来势必对计算机的各个研究方向产生深远的影响和意义。数据库作为计算机科学的一个重要研究方向,其主要研究目标是如何有效存储和管理各种类型的数据。数据库具有半个世纪左右的研究历史,如何在大数据时代找到自己的位置,持续推动数据库学术研究的繁荣和工业界的发展,是每个数据库研究人员需要深入思考和探索的问题。2015中国数据库上海峰会的主题之一是探讨大数据时代数据库研究的独特性,与会的10名国内外数据库知名学者结合自身的研究方向,针对大数据的特点,分别从大数据的基本操作,事务处理,数据模型等方面进行了深入的讨论和分析。
专家观点精选
《都大数据了,数据库人该做点啥?》周傲英如是直白。他从应用分类网络空间和物理空间大数据说起,按支撑系统分有WEB数据:以Hadoop为代表的技术生态圈有10年历史,处理类似网页、日志的非结构化数据 ,面向大众。他说,我国是开源技术的最大试验场,带来的弊端是只管享用不想贡献,那简直和盗版无疑,扼杀了创新力。
周傲英认为,互联网企业是创新主体,而学术界可以面向应用帮助企业数据挖掘、深度学习、人工智能、媒体计算等,抓住数据库遭遇互联网O2O、国家信息安全战略、数据库人才储备等天时地利人和的机遇。在大数据时代,新型硬件层出不穷,基于廉价PC服务器集群的大数据管理最为成功的先例是Hadoop系统,其中最值得关注问题是集群环境下的高可用,高性能,高可扩展的分布式事务处理。秉承数据库理念,依据垂直应用,定制高可伸缩、高数据一致性的事务处理系统,以及科学数据管理系统、平台及其应用。

《大数据时代的重症医学:如何把握?》张彦春用幽默诙谐的语言来演绎健康信息学与大数据方法关系,对于大家开玩笑称他张“医生”时,他只是开怀一笑,我不懂医术,但是可以根据医生提供的数据进行关联规则挖掘,决策树,贝叶斯等方法,从脑电图数据分析预警预测有关的疾病;利用RFID射频识别技术和数据处理,进行医学信息搜索,在医生圈里他是“香馍馍”、大专家。

在《大数据时代数据库研究的挑战》中刘梦赤表示,随着各种数据体量、速率、品种的急剧变化,数据类型、应用需求和研究目标多样化,需要我们彻底的重新思考解决方案来处理超大规模的数据。然而将原始数据转化成结构化可执行的数据会成为大数据处理过程中的主要瓶颈;也带来了硬件架构、处理框架,语言和系统,抽象编程等方面的variety。刘梦赤还提出,数据科学家需要掌握数据管理,大规模数据处理用具和平台的使用,以及商业智能、计算机系统、数学、统计学、机器学习和优化方法;数据科学是一个跨学科的运动;数据库研究将展开与化学、社会学、物理学、生物学领域专家的多方合作。

彭智勇在《大数据时代数据库相关研究》中和大家交流对象代理数据库管理系统、跨媒体数据按需管理、专利数据管理与分析、Web社区管理与服务、云计算环境下可信数据管理、大数据背景下数据版权保护。他的“数据库个性化方法”也获得了国家发明专利。其学术思想通过关系代数自由地分割和重组柔性的关系数据库,而面向对象数据库语义丰富因为数据和操作封装成对象,通过指针相互关联,对象可通过其代理对象间接地进行分割和重组,从而形成柔软性强且语义丰富的对象代理数据库。其特色就是柔性对象管理、对象动态分类、高效跨类查询。

林学民指出,目前数据库研究的数据质量和可扩展的数据处理二个主要领域,当年老先生研究的数据库和当下的研究根本不是一回事,技术在进化,应用不断诞生,理论上需要提升,可扩展处理技术,表征计算可追溯性都是我们要加深研究的。

印鉴介绍他们利用大数据关联规则和广东公安合作查处套牌车辆有600多起,效果明显。他介绍,理论上采用排斥法,因为同一号牌车辆在5分钟以内不可能同时出现在30公里距离的不同地点,利用图谱分析,几经比对,总有一辆问题车会浮出水面,如果靠人工比对,那需要多少警力?

李战怀的一段和VC的交流合作叫人啼笑皆非。“数据库?不就是数据的仓库,太没有技术含量了,我们感兴趣的是什么基地、综合系统,有故事”。其实,数据库的核心是系统和算法,具体对象,其主要研究目标是如何有效存储和管理各种类型的数据,“故事”在具体的解决方案里。

于戈从数据、信息、知识、智慧的演进来畅谈《从数据科学观点看数据库研究》,他把科学的概念、数据科学的含义作理性分析,把数据和其他学科的数据研究的对象、处理目标、处理的性能进行对比分析,数据科学研究的是异构的、非结构化,数据挖掘可以从给定大量数据中,发现出特定模式和模型,从而有效、有用、找到用于描述数据的可解释的模式,使用某些变量去预测其他变量未知的将来值。于戈关于挑战、数据模态、数据操作三维坐标来诠释那是更为形象、专业了;关于应用层、系统层、基础层研究特性解读数据库特点非常全面;最后他以新应用、新对象、新运行环境、新方法、新性能来描述数据库研究的多面性,以应用驱动、理论创新、构筑系统、与时俱进来对“选题”进行总结。

“大数据时代,切忌一哄而上。十人峰会能为历史留下什么?数据库有哪十个解决不了的问题?我们今天才刚刚开始。”周晓方抛出的问题十分耐人寻味。

周傲英最后指出,科研是一项长期性的基础性的工作,它必须服务于国家提升科技实力革新科研模式的长远目标。我们的机遇就是可以畅所欲言,技术也好,理论也罢,一家之言“一统天下”就没意思了,像“战国时期”的百家争鸣,才有利于研究的深入、产业的发展。
小结
大数据的特点在于数据规模远超传统数据集,过去的数据管理系统架构已经无法适应大数据场景。
传统关系数据库包括选择,投影,连接等基本操作,这些操作的可扩展性是传统数据库系统的关键。在大数据时代,数据库研究者需要提炼出针对大数据的基本操作,比如针对图数据这一重要和复杂的大数据,需要研究图数据基本操作的可扩展性和可计算性。另外,科学数据是大数据的重要类型,我们需要针对科学数据的特点,研究科学大数据管理系统,促进科学发现。
事务处理作为数据库管理系统的核心组件,在大数据时代,除了要求传统的ACID属性和高可靠,需要具备极致的系统伸缩性,即高度可扩展,实现对互联网规模的事务并发量应付自如。
传统集中式数据库管理系统的性能依赖单机的处理能力,可扩展性较差。由于软硬件设备主要是国外供应商IBM, Oracle, EMC等企业垄断,造成采购成本居高不下。在大数据时代,新型硬件层出不穷,并且成本不断下降,基于廉价PC服务器集群的大数据管理最为成功的先例是Hadoop系统,但其不具备强大的事务处理能力。基于集群的数据库管理系统是时代发展的潮流,其中最值得关注研究问题是集群环境下的高可用,高性能,高可扩展的分布式事务处理。
数据模型是数据库研究者特有的问题之一。
传统数据库的数据模型包括网状,层次,关系,面向对象模型。除了规模大,大数据的其他特点包括来源多样,异构,数据对象的关系比较复杂。目前,大数据是否存在统一的数据模型,或者应该是否应该采用已有的数据模型,这些挑战性的问题还没有答案,需要数据库研究者进行深入研究和探讨。
嘉宾
李战怀 西北工业大学教授,CCF数据库专委副主任
林学民 华东师范大学教授(UNSW教授)
刘梦赤 武汉大学特聘教授 (Carleton教授)
彭智勇 武汉大学教授,CCF武汉分部主席
王晓阳 复旦大学教授,计算机学院院长
印 鉴 中山大学教授,计算机系主任
于 戈 东北大学教授,CCF信息系统专委主任
张彦春 复旦大学教授 (VU教授)
周晓方 苏州大学教授 (UQ教授)
部分内容节选自新浪博客老张有约


以上是关于DaSESS2015系列回顾之五:2015中国数据库上海峰会(下)的主要内容,如果未能解决你的问题,请参考以下文章

转|Ruby 2015 年回顾

2015 年 Ruby 大盘点

数据设计系列之五--范式

R语言数据分析系列之五

Java基础知识回顾之五 ----- 多线程

黑马程序员:从2016互联网大会数据,看PHP语言发展潜力