大数据开发
Posted hymmiaomiao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据开发相关的知识,希望对你有一定的参考价值。
1、hadoop分布式事物的一致性
2、hdfs的特征 只能attend,不能update(为什么)
3、spark和hive不同使用场景:spark是基于内存的,hive是,,,,,;rdd和sql(为什么有时候复杂的时候用sql,sql更高效,spark程序,rdd是一种数据结构,dataframe有表头,)
4、spark框架
5、sparkstreming ,清洗数据,kafka
6、rdd的操作:transfrom和action
7、python数据处理,python正则,python装饰器,
8、flume是数据抽取、传输(ETL是一整个数据的处理,flume是E的)
9、impala ,什么是MPP架构,impala主要用于MPP架构,spark做清洗,impala用于查询(源于不同的),,hbase也用于查询(大表)基于hdfs的,gbase也用查询(小表)
10、storm 基于java
11、函数式编程,函数是一个完整的对象,函数可以作为传参数来传(spark(scala)、python),函数可以继续调用函数,
12、数据倾斜的处理
倾斜原因:聚合操作时,
处理:新增随机数列,聚合时关联条件新增随机数,再次聚合关联条件不要随机数
13、广播变量、累加变量
以上是关于大数据开发的主要内容,如果未能解决你的问题,请参考以下文章
❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%推荐收藏