2016大数据小盘点

Posted 2023-03-29 lizonglei

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了2016大数据小盘点相关的知识，希望对你有一定的参考价值。

今天是2017年春节大年初一。记忆中，从上初中起，我就对过年不怎么感冒了。时间永不停歇，过年只是人为的加上了个标识。既然是标识，对个人而言，生日的意义也许更胜于过年。

然而过去的2016年，如果在许多年后回过头来看看，在工作、学习、生活上，方方面面，也许都是非常重要的一个时间节点。用三个词来总结我的2016年，那就是——成长、新生、价值。党和国家在全面深化改革，个人也在不断提升。从“要么流芳百世，要么遗臭万年”的轻狂，到后来“保持平常心，水利万物而不争”的虚无，再到如今“关注成长，自我精进”的价值取向，生命不会一成不变，生活也没有一劳永逸。加上时间这条线，成长才变得清晰。

这一年一下子体会到不少道理，这些道理早有人对我说过却不自知。也许没有过往的经历，可能也难以理解这些道理，更谈不上去践行。和菜头说，“任何一个人面对这个世界的时候，都需要自己去头破血流地碰撞，在这个碰撞中找寻世界的真相”。人生的路，要自己去走，从中所得到的一切，才属于自己。每个人出生的时候都是原创，不要活着活着，就一不小心成了盗版。

话题扯远了，有点跑偏，还是言归正传。

大数据小盘点

人工智能(AI)重新崛起

2016 年的科技界，不得不提人工智能。 AlphaGo 4:1 战胜李世石，60 连胜横扫网络围棋快棋，沉寂了数十年的人工智能再次走上前台大放异彩。未来，机器的智能一定会超过人类，对我们的生活产生颠覆性的影响。

让机器拥有更高智能的钥匙是大数据。大数据与人工智能的结合可以说是 2016 年最受瞩目的技术之一，并且在一些企业得到成功应用。有了大数据这个基础，较之以往，现在的人工智能不再是“像人一样的去思考和行动”，而是“以完全超过常人的状态去思考和行动”。

除了人工智能重新崛起之外，大数据在风起云涌的2016年还有以下一些事情值得关注：

商业智能(BI)巨头衰落

十多年前，SAP BO、Oracle BIEE、IBM Cognos 等老牌BI巨头的出现，赋予了数据利用一个新概念。数据库内容可以打通，数据得到整合，数据能可视化展现。可最后商业利用的程度远不及当初设想的那样，使用复杂、领导学不会，BI最终仍沦为一个报表展现工具。

Tableau和QlikView的出现产生了突破。Tableau是桌面系统中最简单的商业智能工具软件，帮助任何人快速分析、可视化并分享信息。2011年，Tableau被美国高德纳咨询公司(Gartner)评为世界上发展速度最快的商业智能公司。QlikView是一个完整的商业分析软件，使开发者和分析者能够构建和部署强大的分析应用。作为QlikTech的旗舰产品，曾长期成为全球增长率最快的BI产品，Gartner把它列在Leaders象限并称为Magic Product。

然而，2016年2月，Tableau发布财报，业绩令人大失所望，其市值在一天之内被腰斩。几个月后，风暴再起，QlikTech的股价暴跌一半多，在2016年6月被Thoma Bravo以大约30亿美元的价格收购。

Hadoop十一岁了

2016年1月28日是Hadoop的十岁生日。今天，Hadoop11岁了。Haddop的诞生开启了大数据时代的大门，改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，形成了自己极其火爆的技术生态圈，受到广泛应用。

2006年，Yahoo!构建10个节点规模的Hadoop机群用于Webmap业务。雅虎工程师们最初只希望这个10节点的集群能够持续运行一整天，根本没想到Hadoop后来会成为大数据计算的代表，每家财富100强企业必备的IT工具。

虽然近两年 Spark 的火爆使得 Hadoop 犹如昨日黄花，但 Hadoop 并没有停止自己的发展脚步。在 2016 年，Hadoop 3.0 的 alpha1 版本面世。随着 Hadoop 3.0 正式版本发布的日益临近，Hadoop的近100位Committer在积极的为Hadoop谋划未来，让我们拭目以待。

Spark大行其道

在 2016 年，Spark 迎来了最近两年的一个最大的版本——Spark 2.0的发布。从2016年年初开始，Spark 就在对 Spark 2.0 进行预热，可是 Spark 2.0 的发布并不如预期来的顺利。5 月份 Spark 2.0 Preview Release 发布，时隔两个月到 2016 年 7 月份，Spark 2.0 的正式版本发布。

Spark 是一种与 Hadoop 相似的开源集群计算环境，Spark在早期发展阶段通过全面兼容Hadoop而借力于后者成熟的生态系统。但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越。Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark正在挑战Hadoop的权威，因为Spark已经将发展目标定位在取代Hadoop。有些人认为，Spark在应用和受欢迎程度方面终将超越Hadoop，甚至已经超越。

随着 Spark 的日益普及，降低开发难度，提高易用性变成了 Spark社区的很重要的事情。摒弃掉 Shark，引入自己的 SQL 引擎，借鉴其他的数据平台抽象出 DataFrame 进而抽象出 DataSet，Spark 无疑变得对于普通程序员越来越友好，对于新晋 Spark 开发者来讲，会 SQL就可以非常方便的开发大数据应用了。

不过，Spark 2.0的正式版本也并没有完全达到预期，仍旧有很多的bug，而结构化流式仍旧处于实验性阶段，一直到十一月发布的 2.0.2，还是 2.0 的 bug fix。

Flink和Beam引人关注

在 2016 年，大数据流式处理技术取得了飞速的发展，并且逐渐变成大数据处理的新趋势。在这个大数据流式处理大潮中，Flink和Beam两个关键的开源项目逐渐取得了人们的注意。

Spark基本上已经取代了Hadoop的批处理引擎MapReduce，更别说Spark的SQL、机器学习和流处理能力。但永不满足的大数据界希望改进这套得到Databricks公司支持、用Scala语言编写的多用途框架。于是Apache Flink和Apache Beam应运而生，成为了Spark在大数据框架之战中的劲敌。

Apache Flink 并不是一个新的开源项目，但是随着大数据流式处理的日益重要，Flink 因为其对流式处理的支持能力，得到了越来越多的人的重视。在 2016 年，几乎所有的大数据技术大会上，都能够看到 Flink的身影。在 Flink 的设计理念中，数据流是一等公民，而批量操作仅仅是流式处理的一种特殊形式。同 Spark 一样，Flink 也是期望基于它的核心打造一个大数据的生态系统。

Apache Beam是一个仍旧在孵化器中的项目，但是其出发点和背景使得我们必须在早期就对它保持持续的关注。Beam 本身不是一个流式处理平台，而是一个统一的编程框架。在大数据处理和计算平台百花齐放的今天，开发者不得不面对Spark, Flink, Storm, Apex 等等不同的计算框架，而这些计算框架各自有不同的开发 API，如何能够屏蔽底层的差异，使得上层有一个统一的表达，对于大数据应用开发者来讲就变得非常有意义了。

而这个时候，Beam 就给了我们这个答案。Beam 系出名门，是由Google 开源出来的，并且得到了 Spark、Flink等等社区的大力支持。Apache Beam是目前很有前途的大数据框架，其目标之一是用同一组API进行实时交互的批处理，并且通过“Runner”支持Spark、Flink和Google Dataflow。

黑客入侵阴云笼罩

时代周刊2016年的年度人物评选中，第一名是川普，第二名希拉里，而第三名是黑客。黑客上榜并非无厘头。2016年发生了多起引人注目的数据泄露事件，比如美国民主党全国委员会的电子邮件服务器被攻陷，雅虎10亿用户的数据被黑。

黑客入侵美国司法部、国税局，可能还有国家安全局。他们偷走或试图将包括Adult FriendFinder，LinkedIn，Mail.ru和Yahoo的数据卖给私人公司。他们泄露了优秀运动员Simone Biles、Serena和Venus Williams的保密医疗记录，发布喜剧演员Leslie Jones等名人的私人照片，还发现，亿万富翁黑客马克·扎克伯格，竟然使用 “dadada”这么简单的字母作为他的密码。

根据英国保险公司劳合社(Lloyd's)的数据，全球范围内，企业因为黑客付出了至少4000亿美元，这个数字也肯定被低估了。因为黑客的活动周期比常规罪犯长得多，今年最大的违规行为很可能还没有出现。这种巨大的不确定性促使了网络防御、网络取证和网络保险业的蓬勃发展，预计到2020年，这些行业估值将达到2000亿美元。

大数据资源管理与开发日趋重要

随着大数据在不同的领域越来越多的应用场景的发现，如何对数据资产进行管理并开发利用就变得越来越重要。由此也产生和发展出很多的创业公司和开源项目。

WhereHows是领英公司(LinkedIn)在 2016 年开源的一套用于大数据发现和管理的工具，集成了所有主要的数据处理系统，可以进行分类收集和元数据操作。

收到普遍欢迎的大数据总线Apache Kafka在2016年如鱼得水，这要归功于对分析高速移动数据的新要求。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。由于人们对实时分析的兴趣高涨，这个开源项目的采用率正在飙升。

从EMC和VMware拆分出来的Pivotal也拆分出来新的公司——SnappyData，现从Pivotal、、通用电气创投(GE Ventures)和GTD Capital融得数额为365万美元的资金。SnappyData产品的根本基础是开源Spark框架和Gemfire，公司的目标就是：开发一款可处理在线交易、分析和数据流的单一产品，加快分析大数据的过程。

区块链技术是2016年的新兴技术热点。区块链鉴证公司Coinalytics2016年宣布更名为Skry，公开了新的商标，聘请IBM专家研究区块链。Skry联合创始人和首席执行官Fabio Federici说该公司正努力把区块链技术、大数据和人工智能合并成一个产品——“我们相信使用机器学习和人工智能实时服务能让用户更好的预测未来走向。”

展望

国家《大数据产业发展规划(2016-2020年)》已经正式印发。我们不知道2017年将为大数据世界带来些什么，也许会推出更多的数据分析和实时预测工具，也许会发生更多数据安全和隐私泄露问题，也许智能分析的应用会更加广泛、用户体验更加美好，也许我们将目睹那些改变着人类生活的核心技术遭遇意想不到的突破或令人震惊的失败。

尽管基于大数据和高性能运算的智能时代必将到来，但若缺少人文精神，数字科技终究不能产生智慧。国家发展大数据产业，建设智慧城市，仍需“以人文本”，获取“灵魂”。

正如新春之际，大家还是要放下手机平板笔记本，一家老小共享天伦才是正确的姿势。

新春大吉

以上是关于2016大数据小盘点的主要内容，如果未能解决你的问题，请参考以下文章

天虎科技：全国智能硬件投融资情况大盘点

大数据热词盘点 | 除了人工智能区块链分布式架构...你还应该知道的！

经常使用的数据挖掘软件/软件包大盘点

盘点 | 2017人工智能10大关键词

大数据入门小知识

盘点国产商业智能BI上下二十年，大数据时代的新故事