Spark
Posted suixingc
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark相关的知识,希望对你有一定的参考价值。
Spark Core: (回顾)
Speed
disk 10x
memory 100x
Easy
code
interactive shell
Unified Stack
Batch
Streaming
ML
Graph
Deployment
Local
Standalone
YARN
K8S
Multi Language
Scala
Python
R
Java
RDD: Resilient Distributed Dataset
five <==> source code
Create way:
textFile: local HDFS s3
parallelize: test
Transformation
lazy evaluated
map filter flatMap
Action
eager
return a value to Driver
collect reduce count take top
Cache
处理的日志: (有问题,就是有脏数据,(考虑代码的健壮性,所以要在代码中进行判断))
别想当然是正确的
虽然说日志中每个字段的含义以及分隔符是什么都是事先定义好的
一行核心代码,需要N多行代码来保障
LogApp: 目的性
了解Spark如何进行大数据业务处理
掌握生产上边界值 ==》 使的你的代码
运行架构是什么样子的呢? ********
一个task就是一个分区
一个core上有多个线程 看并行度
以上是关于Spark的主要内容,如果未能解决你的问题,请参考以下文章
spark关于join后有重复列的问题(org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous)(代码片段