大话实时计算

Posted 2022-03-07 彭宇成

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大话实时计算相关的知识，希望对你有一定的参考价值。

上期内容回顾

第一期经典问题回顾与解读

观点：大数据 = hive sql ≈ java web

理由：大数据不就是写一些hive sql 搞搞ETL，做几张统计分析用的简单报表 - 这个java web 也可以做啊，多简单！

解读：大数据与java web完全不同；大数据远非hive sql这种单一的传统的离线分析技术，还有实时计算，机器学习。。。

第一，大数据跟java web完全不同 - 即使业务只是出报表，做分析！？你要面对的是海量数据，是百亿级、千亿级的数据量！java web 能处理么？用大数据技术，你要考虑分布式海量数据存储，大规模分布式并行计算，要理解hadoop和spark底层的复杂技术原理，解决各种大数据场景下出现的问题，最后才能针对海量数据产出一些普通的业务报表和分析报告。因此，单从做报表分析来说，真正海量数据的报表分析也不简单 - 而这，用传统的java web技术也根本做不到？数据没法存，更没法快速的取。
从业务上来考虑，如何能够对大量的数据进行大型数据仓库的建模？如何能够构建360度全方位分析的数据分析平台？如何能够依靠构建出来的数据分析平台真正对公司的产品设计、运营管理、企业管理提供真正有价值的支撑性分析报告？如何能够对海量数据做到有效的数据治理与数据管理？

第二，大数据 = hive sql ? 产生这种误解，主要是当前金融中心数据量并不大（TB级别，具体多少有待进一步统计），所以用hive 跑跑sql语句，也不会碰到什么大问题。虽然在用hadoop,但是并不能称得上真正做大数据？做出来的东西没有太大的意义，技术上也碰不到什么问题。大数据远非hive sql，还有实时计算，机器学习等（再说，越来越多的大公司正在用spark sql +hive[数据仓库] 替代传统的hive sql 做离线分析）

注：以上内容大部分摘自中华石杉 相关言论，致谢。

结论

大数据真正能给部门带来实际价值任重道远：需要公司高层更多理解，更多支持，也需要猿友们持久的努力！

本期内容摘要

大话实时计算二之 scala光速入门与案例解读spark streaming

主题

函数式编程初体验与 Scala快速入门
Spark运行时状态图解与RDD经典算子演练
案例解读spark streaming

场景

地点：B604
主讲：Mr.Snail
主题：scala光速入门与案例解读spark streaming
时间：2016/10/26 19：00 - 20：00

摘要

1、函数式编程初体验与 Scala光速入门

1.1 函数式编程 VS 过程式编程 VS 面向对象编程

？现在有这样一个数学表达式：

(1 + 2) * 3 - 4

过程式编程：

　　var a = 1 + 2;
　　var b = a * 3;
　　var c = b - 4;

函数式编程：

var result = subtract(multiply(add(1,2), 3), 4);

面向对象编程：

public class Calculator

  public int add(int i,int j)(return i+j;)

  main
  
     int result = new Calculator().subtract(new Calculator().multiply(new Calculator().add(1,2),3),4);

1.2 Scala光速入门

注：代码解读函数式编程在scala中的应用

2、Spark运行时状态图解与RDD基本操作

2.1 运行时状态图解

2.1.1 基本术语解读

local
Standalone
Apache Mesos
Hadoop YARN
…

2.2 RDD基本操作

（记得加上那张图片：两态）

常用算子操作

注：
1、通过 spark-submit 演示常用算子的用法（word-count案例）
2、通过webUI进一步解读程序

3、案例解读 spark streaming