大话实时计算

Posted 彭宇成

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大话实时计算相关的知识,希望对你有一定的参考价值。

上期内容回顾

第一期经典问题回顾与解读

观点:大数据 = hive sql ≈ java web

理由:大数据不就是写一些hive sql 搞搞ETL,做几张统计分析用的简单报表 - 这个java web 也可以做啊,多简单!

解读:大数据与java web完全不同;大数据远非hive sql这种单一的传统的离线分析技术,还有实时计算,机器学习 。。。

第一,大数据跟java web完全不同 - 即使业务只是出报表,做分析!?你要面对的是海量数据,是百亿级、千亿级的数据量!java web 能处理么?用大数据技术,你要考虑分布式海量数据存储,大规模分布式并行计算,要理解hadoop和spark底层的复杂技术原理,解决各种大数据场景下出现的问题,最后才能针对海量数据产出一些普通的业务报表和分析报告。因此,单从做报表分析来说,真正海量数据的报表分析也不简单 - 而这,用传统的java web技术也根本做不到?数据没法存,更没法快速的取。
从业务上来考虑,如何能够对大量的数据进行大型数据仓库的建模?如何能够构建360度全方位分析的数据分析平台?如何能够依靠构建出来的数据分析平台真正对公司的产品设计、运营管理、企业管理提供真正有价值的支撑性分析报告?如何能够对海量数据做到有效的数据治理与数据管理?

第二,大数据 = hive sql ? 产生这种误解,主要是当前金融中心数据量并不大(TB级别,具体多少有待进一步统计),所以用hive 跑跑sql语句,也不会碰到什么大问题。虽然在用hadoop,但是并不能称得上真正做大数据?做出来的东西没有太大的意义,技术上也碰不到什么问题。大数据远非hive sql,还有实时计算,机器学习等(再说,越来越多的大公司正在用spark sql +hive[数据仓库] 替代传统的hive sql 做离线分析)

注: 以上内容大部分摘自中华石杉 相关言论,致谢。

结论

大数据真正能给部门带来实际价值任重道远:需要公司高层更多理解,更多支持,也需要猿友们持久的努力!



本期内容摘要

大话实时计算二 之 scala光速入门与案例解读spark streaming

主题

  1. 函数式编程初体验与 Scala快速入门
  2. Spark运行时状态图解与RDD经典算子演练
  3. 案例解读spark streaming

场景

地 点:B604
主 讲:Mr.Snail
主 题:scala光速入门与案例解读spark streaming
时 间:2016/10/26 19:00 - 20:00

摘要

1、函数式编程初体验与 Scala光速入门

1.1 函数式编程 VS 过程式编程 VS 面向对象编程

? 现在有这样一个数学表达式:

(1 + 2) * 3 - 4

过程式编程:

  var a = 1 + 2;
  var b = a * 3;
  var c = b - 4;

函数式编程:

var result = subtract(multiply(add(1,2), 3), 4);

面向对象编程:

public class Calculator

  public int add(int i,int j)(return i+j;)

  main
  
     int result = new Calculator().subtract(new Calculator().multiply(new Calculator().add(1,2),3),4);
  

1.2 Scala光速入门

:代码解读函数式编程在scala中的应用

2、Spark运行时状态图解与RDD基本操作

2.1 运行时状态图解

2.1.1 基本术语解读
  • local
  • Standalone
  • Apache Mesos
  • Hadoop YARN

2.2 RDD基本操作

(记得加上那张图片:两态)

常用算子操作

注:
1、通过 spark-submit 演示常用算子的用法(word-count案例)
2、通过webUI进一步解读程序

3、案例解读 spark streaming

常用算子操作

: 0、介绍kafka的基本使用 1、说明窗口函数的应用 2、代码走读 word-count-online.java

总结

God bless me

参考

中华石杉
spark官网
周志湖spark修炼之道

以上是关于大话实时计算的主要内容,如果未能解决你的问题,请参考以下文章

大话分布式架构(一)

华为带火落后的增程式技术,吓得传统汽车企业瑟瑟发抖

补习系列(20)-大话 WebSocket 与 "尬聊"的实现

大话异步与并行

实时计算数据架构的演变

Storm简介——实时流式计算介绍